개발/잡다개발

Word2Vec

개복치 개발자 2020. 7. 14. 23:26

텍스트를 딥러닝 형태로 넣어주기 위해 텍스트를 벡터형태로 변환합니다.

 

이 과정을 Encoding이라고 합니다.

 

thank you love you

 

thank -> 0

you -> 1

love ->

 

와 같이 변환 할 수 있습니다.

 

원 핫 인코딩으로도 가능한데

 

위와 같이 만들어줄 수 있습니다.

 

다만 단어의 유사도는 원핫인코딩으로 표현할 수 없는데

 

이 것들을 Embedding이라는 것을 사용합니다.

 

 

word2vec은 skipgram이라는 것을 사용해서 컴퓨터가 word와 neighbor를 만들 수 있습니다.

 

window1

 

 

window2

 

 

 

 

 

 

 

 

 

 

 

 

참고

[1] - https://www.youtube.com/watch?v=sY4YyacSsLc

[2] - https://github.com/minsuk-heo/python_tutorial/blob/master/data_science/nlp/word2vec_tensorflow.ipynb

 

'개발 > 잡다개발' 카테고리의 다른 글

공분산 메모  (0) 2020.07.17
SNA 메모  (0) 2020.07.17
텍스트 감정분석  (0) 2020.07.11
파이썬 Non-ASCII Character  (0) 2020.07.09
EC2 셀레니움 배포  (0) 2020.07.09