bag of words bag of words에 대해서 알아보면 간단하게 가방에 bag1 : awesome thank you bag2 : great not good 이라고 들어 있을 때 얘네들을 백터화 시키는 것입니다. 위와 같이 벡터화를 시켜서 위와 같은 계산법을 통해 문장간의 유사도를 구할 수 있습니다. 참조 [1] - https://www.youtube.com/watch?v=dKYFfUtij_U 개발/AI 정리 2020.07.27
코사인 유사도 Cosine Similarity 코사인 유사도와 텍스트 마이닝에 대해서 알아보겠습니다. 이 빌어먹을 벡터를 고등학교 때 배웠는데 이나먹고 다시 볼 줄은 몰랐네요 자 정말정말 간단하게 처리하면 문서의 유사도에 대해서 알고 싶은 것인데, 이 문서(문장)을 벡터화 시켜서 문장간의 유사도를 비교해보는 방법입니다. 얘를 그림과 수식으로 나타내면 위와 같이 만들어 낼 수 있습니다. 실제 상황에서 적용을 한다고 하면 아래와 같이 적용해 볼 수 있습니다 참조 [1] - https://wikidocs.net/24603 개발/AI 정리 2020.07.27
주피터 노트북 한글 mac 폰트 주피터에서 한글로 그래프를 그릴 때 한글이 깨질 때가 있습니다. (ㅁㅁㅁ형태로 나옵니다.) 이럴 때 폰트 설정을 해줘야하는데 맥에서는 font설정을 AppleGothic으로 해주면 됩니다. 그러면 매우매우 간단하게 끝납니다 :) 꿀팁 2020.07.22
StandardScaler StandardScaler는 평균이 0과 표준편차가 1이 되도록 변환하는 방법입니다. 자료의 오버플로우나 언더풀로우를 방지하고 독립 변수의 공분산 행렬의 조건수를 감소시킵니다. 참고 [1] - https://datascienceschool.net/view-notebook/f43be7d6515b48c0beb909826993c856/ 개발/Kaggle 2020.07.20
SVM SVM(Support Vector Machine)에 대해서 알아보겠습니다. 이런 데이터셋이 있는데, 이 데이터셋을 구분해보고 싶은 겁니다. 그래서 이렇게 구분선을 긋는데 아래와 같이 구분해주는 항목(빨간색)기준으로 선을 긋습니다. 이 과정에서 빨간 선을 늘릴 수도 있고, 좁힐 수도 있습니다. 이 것을 margin이라고 합니다. 만약에 아래와 같이 좁게 했을 때 엄격하게 데이터를 구분합니다. 하지만, 오버피팅이 일어날 수 있습니다. 하지만 위와 같이 마진을 늘리면, 언더피팅이 일어날 수 있습니다. 그리고 gamma라는 개념이 나오는데, gamma라는 값을 늘리면 아래와 같이 구분선이 구불구불하게 그여집니다. 감마 값을 작게하면 아래와 같이 구불구불하지 않은 형태로 구성됩니다. 구현하면 아래와 같이 할 수 .. 개발/Kaggle 2020.07.20
공분산 메모 https://datascienceschool.net/view-notebook/4cab41c0d9cd4eafaff8a45f590592c5/ 개발/잡다개발 2020.07.17
SNA 메모 https://blog.naver.com/PostView.nhn?blogId=kiddwannabe&logNo=221362423659&categoryNo=36&parentCategoryNo=0&viewDate=¤tPage=1&postListTopCurrentPage=1&from=postView SNA 그래프 그리기(MST) https://m.blog.naver.com/kiddwannabe/221156319157 예전에 남겼던 블로그 내용중 SNA 에 대해서 물어... blog.naver.com 개발/잡다개발 2020.07.17
css 템플릿 사이트 https://bootstraptaste.com/ Free Bootstrap Themes and Website Templates Green is a free one-page HTML5 template perfect in creating agricultural, lawn services, farming, ecology, gardening, and other organic businesses. The template can be viewed easily on different screen size,… bootstraptaste.com 꿀팁 2020.07.16
장고 파이참 admin 오류 이거때문에 몇시간 삽질했는데 별거 아닌데, 가끔 파이참 유료 버전에서 django프로젝트를 만들어주는 대로 프로젝트를 만들면 가끔 admin페이지에 접속이 안될 때가 있습니다. 검색해보면 db날리고 어쩌고 다 해도 안되는데 그냥 간단하게 django-admin startproject mysite 이걸로 프로젝트 만들어주면 됩니다. 끄읏 개발/Django 2020.07.16
Word2Vec 텍스트를 딥러닝 형태로 넣어주기 위해 텍스트를 벡터형태로 변환합니다. 이 과정을 Encoding이라고 합니다. thank you love you thank -> 0 you -> 1 love -> 와 같이 변환 할 수 있습니다. 원 핫 인코딩으로도 가능한데 위와 같이 만들어줄 수 있습니다. 다만 단어의 유사도는 원핫인코딩으로 표현할 수 없는데 이 것들을 Embedding이라는 것을 사용합니다. word2vec은 skipgram이라는 것을 사용해서 컴퓨터가 word와 neighbor를 만들 수 있습니다. window1 window2 참고 [1] - https://www.youtube.com/watch?v=sY4YyacSsLc [2] - https://github.com/minsuk-heo/python_tut.. 개발/잡다개발 2020.07.14