명사형 단어 데이터만 수집하고 싶을 때 팁이 있을까요?
조회수 496회
영문 중에 명사형 단어만 데이터베이스에 수집하려고 계획중입니다. 그런데 네이버, 구글 같은 곳의 온라인 사전에서 명사형 단어를 크롤링해서 데이터베이스에 수집하려니까 양도 너무 방대하고 접근 방법 자체가 애매모호 해서 구현자체가 난해하더라구요.
명사 수집에 제한을 걸지 않는다고 했을 때 api를 사용한다거나 모든 방법중 명사 단어를 수집하는 좋은 방법 추천 부탁드립니다.
참고로 파이썬을 사용하고 있으며, 혹시 파이썬에서 랜덤으로 명사형 단어를 루프구간 동안 생성할 수 있도록 구현 된 함수가 있으면 알려주세요...
감사합니다.
1 답변
-
직접 수집하는 것 보다, 이미 수집되어 있는 데이터를 받아서 사용하는 것이 간편할 것 같습니다.
국립국어원의 2017년 질문 답변을 보면, 신청을 통해서 사전데이터를 다운로드 받을 수 있다고 나와 있습니다.
그리고 한국어 wiktionary 도 일단은 사전을 표방하는 서비스입니다. wikipedia 계열 서비스들은 여러가지 형식으로 데이터를 받을 수 있게 되어 있을 겁니다.
그리고, awesome korean nlp 같은 키워드로 검색해 보시면 한국어 자연어처리 관련된 자료들에 대해 정리된 페이지들이 몇 개 찾아집니다.
댓글 입력