tf-idf 알고리즘 작성 시 idf가 음수가 되는 문제

조회수 1266회

정보검색과 관련된 간단한 코드를 짜는 중입니다.

TF-IDF를 이용하여 짜고 있는데, IDF를 구하다 보니 궁금한 점이 생겼습니다.

IDF를 구할 때 특정 단어가 문서 안에 존재하지 않을 경우 분모가 0이 되기 때문에 분모에 1을 더하는 것이 일반적이라는 글을 보고,

log(전체문서의 수 / (1 + 단어 t가 포함된 문서의 수))

위 공식대로 코드를 작성했습니다.

그런데 제가 궁금한 점은 단어 t가 모든 문서에 포함될 경우 입니다.

그러면 분자보다 분모가 커지고, log를 씌운 idf의 값이 음수가 되는데 idf 값이 음수가 되어도 알고리즘을 구현하는 것에는 문제가 없을까요?

일단 제가 원하는대로 결과가 제대로 나오긴 하지만.. tf-idf 관련 글들을 검색해도 이 부분에 대한 내용을 찾지 못해 질문 올립니다. 답변 부탁드립니다. 감사합니다.

  • (•́ ✖ •̀)
    알 수 없는 사용자

1 답변

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)