tf-idf 알고리즘 작성 시 idf가 음수가 되는 문제

Question

tf-idf 알고리즘 작성 시 idf가 음수가 되는 문제

조회수 1266회

algorithm

1

싫어요

정보검색과 관련된 간단한 코드를 짜는 중입니다.
TF-IDF를 이용하여 짜고 있는데, IDF를 구하다 보니 궁금한 점이 생겼습니다.
IDF를 구할 때 특정 단어가 문서 안에 존재하지 않을 경우 분모가 0이 되기 때문에 분모에 1을 더하는 것이 일반적이라는 글을 보고,
log(전체문서의 수 / (1 + 단어 t가 포함된 문서의 수))
위 공식대로 코드를 작성했습니다.
그런데 제가 궁금한 점은 단어 t가 모든 문서에 포함될 경우 입니다.
그러면 분자보다 분모가 커지고, log를 씌운 idf의 값이 음수가 되는데 idf 값이 음수가 되어도 알고리즘을 구현하는 것에는 문제가 없을까요?
일단 제가 원하는대로 결과가 제대로 나오긴 하지만.. tf-idf 관련 글들을 검색해도 이 부분에 대한 내용을 찾지 못해 질문 올립니다. 답변 부탁드립니다. 감사합니다.

(•́ ✖ •̀)
알 수 없는 사용자

댓글 입력

score 1 · Accepted Answer

1

싫어요

음수가 된다면 0으로 바꿔 진행하시면 될 듯 합니다.

편집 요청

clianor 164 points

2018-06-05 13:51:56에 작성됨

tf-idf 알고리즘 작성 시 idf가 음수가 되는 문제

조회수 1266회

algorithm

1

(•́ ✖ •̀)
알 수 없는 사용자

댓글 입력

1 답변

1

clianor 164 points

2018-06-05 13:51:56에 작성됨

댓글 달기

tf-idf 알고리즘 작성 시 idf가 음수가 되는 문제

조회수 1266회

algorithm

1

(•́ ✖ •̀)알 수 없는 사용자

댓글 입력

1 답변

1

clianor 164 points

2018-06-05 13:51:56에 작성됨

댓글 달기

답변을 하려면 로그인이 필요합니다.

(•́ ✖ •̀)
알 수 없는 사용자