SMOTE에 대해서 알아보겠습니다.
예를 들면, 카드사기 dataset을 분석할 때, 사기가 아닌 데이터는 1000개인데, 사기 데이터는 3개일 수 있습니다.
이러면 사기 데이터를 분석하기가 매우 어렵다.
정확도가 높아도 재현율이 작아지는 현상이 발생하는데
SMOTE(를 이용해서 오버샘플링 기법을 활용합니다.
SMOTE를 이용해서 합성 데이터를 생성합니다.
참조
[1] - https://mkjjo.github.io/python/2019/01/04/smote_duplicate.html
'개발 > Kaggle' 카테고리의 다른 글
Pima Indians Diabetes Database (0) | 2020.04.24 |
---|---|
Caterpillar Tube Pricing Predicting (0) | 2020.04.21 |
Confusion Matrix (0) | 2020.04.21 |
GridSearchCV (0) | 2020.04.21 |
Breast Cancer Wisconsin (Diagnostic) Data Set (0) | 2020.04.20 |