문서를 로드하여 파싱하고 토큰화 하기?
조회수 990회
문서를 파싱하여 원하는 내용만 별도의 파일로 생성하려고 합니다.
PDF에 PDFbox라이브러리가 있어서 이를 활용중입니다.
문제는 문서를 읽고 이를 토큰화 하는 방법을 모르겠습니다.
텍스트는 스트링으로 읽어와서 자바로 자체 처리 가능한데
그림, 상자, 텍스트를 한번에 받다보니 이를 토큰화 하여 직접 처리해줘야겠는데
이게 쉽지 않네요.
꼭 pdf가 아니더라도 한컴 등의 문서를 파싱하여 토큰화 하는 방법이 있을까요?
-
(•́ ✖ •̀)
알 수 없는 사용자
1 답변
-
원하시는 것이 특정 문서의 내용 중 원하는 부분만 추출하는 것이라면 토큰화를 하지 않아도 방법이 있습니다.
정규식(Regular Expression)을 이용하면 대용량의 문자열 집합에서 일정 규칙을 갖는 문자열을 추출하는 것이 가능합니다.
물론 규칙을 찾아내고 룰을 만들어 내는 것도 쉬운 일은 아니겠지만요.
-
(•́ ✖ •̀)
알 수 없는 사용자
-
댓글 입력