문서를 로드하여 파싱하고 토큰화 하기?

조회수 122회

문서를 파싱하여 원하는 내용만 별도의 파일로 생성하려고 합니다.

PDF에 PDFbox라이브러리가 있어서 이를 활용중입니다.

문제는 문서를 읽고 이를 토큰화 하는 방법을 모르겠습니다.

텍스트는 스트링으로 읽어와서 자바로 자체 처리 가능한데

그림, 상자, 텍스트를 한번에 받다보니 이를 토큰화 하여 직접 처리해줘야겠는데

이게 쉽지 않네요.

꼭 pdf가 아니더라도 한컴 등의 문서를 파싱하여 토큰화 하는 방법이 있을까요?

  • 어려운 얘기입니다. PDF라는 게 생각하시는 것만큼 정형화되어 있지 않아요. 말씀하시는 게 정말 깔끔하게 구현되면 그기술 가지고 중국이나 미국 가서 스타트업 내셔도 될걸요 엽토군 2019.1.9 22:17

1 답변

답변을 하려면 로그인이 필요합니다.

Hashcode는 개발자들을 위한 무료 QnA 사이트입니다. 계정을 생성하셔야만 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)

ᕕ( ᐛ )ᕗ
로그인이 필요합니다

Hashcode는 개발자들을 위한 무료 QnA사이트 입니다. 계정을 생성하셔야만 글을 작성하실 수 있습니다.