개발 335

코사인 유사도 Cosine Similarity

코사인 유사도와 텍스트 마이닝에 대해서 알아보겠습니다. 이 빌어먹을 벡터를 고등학교 때 배웠는데 이나먹고 다시 볼 줄은 몰랐네요 자 정말정말 간단하게 처리하면 문서의 유사도에 대해서 알고 싶은 것인데, 이 문서(문장)을 벡터화 시켜서 문장간의 유사도를 비교해보는 방법입니다. 얘를 그림과 수식으로 나타내면 위와 같이 만들어 낼 수 있습니다. 실제 상황에서 적용을 한다고 하면 아래와 같이 적용해 볼 수 있습니다 참조 [1] - https://wikidocs.net/24603

개발/AI 정리 2020.07.27

SVM

SVM(Support Vector Machine)에 대해서 알아보겠습니다. 이런 데이터셋이 있는데, 이 데이터셋을 구분해보고 싶은 겁니다. 그래서 이렇게 구분선을 긋는데 아래와 같이 구분해주는 항목(빨간색)기준으로 선을 긋습니다. 이 과정에서 빨간 선을 늘릴 수도 있고, 좁힐 수도 있습니다. 이 것을 margin이라고 합니다. 만약에 아래와 같이 좁게 했을 때 엄격하게 데이터를 구분합니다. 하지만, 오버피팅이 일어날 수 있습니다. 하지만 위와 같이 마진을 늘리면, 언더피팅이 일어날 수 있습니다. 그리고 gamma라는 개념이 나오는데, gamma라는 값을 늘리면 아래와 같이 구분선이 구불구불하게 그여집니다. 감마 값을 작게하면 아래와 같이 구불구불하지 않은 형태로 구성됩니다. 구현하면 아래와 같이 할 수 ..

개발/Kaggle 2020.07.20

Word2Vec

텍스트를 딥러닝 형태로 넣어주기 위해 텍스트를 벡터형태로 변환합니다. 이 과정을 Encoding이라고 합니다. thank you love you thank -> 0 you -> 1 love -> 와 같이 변환 할 수 있습니다. 원 핫 인코딩으로도 가능한데 위와 같이 만들어줄 수 있습니다. 다만 단어의 유사도는 원핫인코딩으로 표현할 수 없는데 이 것들을 Embedding이라는 것을 사용합니다. word2vec은 skipgram이라는 것을 사용해서 컴퓨터가 word와 neighbor를 만들 수 있습니다. window1 window2 참고 [1] - https://www.youtube.com/watch?v=sY4YyacSsLc [2] - https://github.com/minsuk-heo/python_tut..

개발/잡다개발 2020.07.14

EC2 셀레니움 배포

메모해놓습니다. https://dvpzeekke.tistory.com/1 위의 블로그에서 가져온 글입니다. chrome 설치하기 이제 chrome 브라우저를 설치해보겠습니다. $ wget -q -O - https://dl-ssl.google.com/linux/linux_signing_key.pub | sudo apt-key add - $ sudo sh -c 'echo "deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google.list' $ sudo apt-get update $ sudo apt-get install google-chrome-stable chromedriver 설치..

개발/잡다개발 2020.07.09