영어 문장에서 단어만 추출하고 싶을 때, NLTK를 사용합니다.
어떻게 사용하는지 보면 아래와 같이 사용 가능하고,
원형복원 lemmatize 도 가능합니다.
lemmatize 할 때 맥에서 에러가 나면
python -m nltk.downloader -d /usr/local/share/nltk_data wordnet
를 실행해주시면 됩니다.
불용어 처리하는 방법은 아래와 같이 해주시면 가능합니다.
불용어 설치가 안된다면
python -m nltk.downloader stopwords
참고
[1] - https://datascienceschool.net/view-notebook/8895b16a141749a9bb381007d52721c1/
[2] - https://wikidocs.net/22530
'개발 > AI 정리' 카테고리의 다른 글
bag of words (0) | 2020.08.03 |
---|---|
엔드로피란 (0) | 2020.07.28 |
TF-IDF (0) | 2020.07.27 |
LSA 잠재의미분석 (0) | 2020.07.27 |
bag of words (0) | 2020.07.27 |