개발/AI 정리

TF-IDF

개복치 개발자 2020. 7. 27. 18:48

TF-IDF에 대해서 알아보겠습니다.

 

문서간의 연관성을 알아보는 방법인데

 

예를 들면 어떤 문서(문장)에 단어가 많이 출연하면 이 단어가 중요하다고 판단할 수 있습니다.

 

그런데 실제로 가면

 

I am a boy

You are a girl 

 

이런 문장이 있을 때, 'a'라는 것이 많이 출현하지만, 이게 실제로는 전혀 중요하지 않은 단어입니다.

 

이 때 나타나는 개념이 IDF라는 개념입니다.

 

이렇게 연관성이 없는데 자주 출현하는 단어들에 페널티를 주기 위한 방법입니다.

 

 

 

 

 

참조

 

[1] - https://www.youtube.com/watch?v=meEchvkdB1U

'개발 > AI 정리' 카테고리의 다른 글

NLTK 사용법  (0) 2020.07.29
엔드로피란  (0) 2020.07.28
LSA 잠재의미분석  (0) 2020.07.27
bag of words  (0) 2020.07.27
코사인 유사도 Cosine Similarity  (0) 2020.07.27