개발/Kaggle

SMOTE(synthetic minority oversampling technique)

개복치 개발자 2020. 4. 21. 14:25

 

SMOTE에 대해서 알아보겠습니다.

 

예를 들면, 카드사기 dataset을 분석할 때, 사기가 아닌 데이터는 1000개인데, 사기 데이터는 3개일 수 있습니다.

 

이러면 사기 데이터를 분석하기가 매우 어렵다.

 

정확도가 높아도 재현율이 작아지는 현상이 발생하는데

 

SMOTE(를 이용해서 오버샘플링 기법을 활용합니다.

 

SMOTE를 이용해서 합성 데이터를 생성합니다.

 

 

 

 

 

 

 

 

 

 

 

 

참조

 

[1] - https://mkjjo.github.io/python/2019/01/04/smote_duplicate.html

'개발 > Kaggle' 카테고리의 다른 글

Pima Indians Diabetes Database  (0) 2020.04.24
Caterpillar Tube Pricing Predicting  (0) 2020.04.21
Confusion Matrix  (0) 2020.04.21
GridSearchCV  (0) 2020.04.21
Breast Cancer Wisconsin (Diagnostic) Data Set  (0) 2020.04.20