개발/잡다개발
Word2Vec
----___<<<<<
2020. 7. 14. 23:26
텍스트를 딥러닝 형태로 넣어주기 위해 텍스트를 벡터형태로 변환합니다.
이 과정을 Encoding이라고 합니다.
thank you love you
thank -> 0
you -> 1
love ->
와 같이 변환 할 수 있습니다.
원 핫 인코딩으로도 가능한데
위와 같이 만들어줄 수 있습니다.
다만 단어의 유사도는 원핫인코딩으로 표현할 수 없는데
이 것들을 Embedding이라는 것을 사용합니다.
word2vec은 skipgram이라는 것을 사용해서 컴퓨터가 word와 neighbor를 만들 수 있습니다.
window1
window2
참고
[1] - https://www.youtube.com/watch?v=sY4YyacSsLc
[2] - https://github.com/minsuk-heo/python_tutorial/blob/master/data_science/nlp/word2vec_tensorflow.ipynb