TF-IDF에 대해서 알아보겠습니다.
문서간의 연관성을 알아보는 방법인데
예를 들면 어떤 문서(문장)에 단어가 많이 출연하면 이 단어가 중요하다고 판단할 수 있습니다.
그런데 실제로 가면
I am a boy
You are a girl
이런 문장이 있을 때, 'a'라는 것이 많이 출현하지만, 이게 실제로는 전혀 중요하지 않은 단어입니다.
이 때 나타나는 개념이 IDF라는 개념입니다.
이렇게 연관성이 없는데 자주 출현하는 단어들에 페널티를 주기 위한 방법입니다.
참조
'개발 > AI 정리' 카테고리의 다른 글
NLTK 사용법 (0) | 2020.07.29 |
---|---|
엔드로피란 (0) | 2020.07.28 |
LSA 잠재의미분석 (0) | 2020.07.27 |
bag of words (0) | 2020.07.27 |
코사인 유사도 Cosine Similarity (0) | 2020.07.27 |