GridSearchCV

개발/Kaggle

----___<<<<< 2020. 4. 21. 00:06

GridSearchCV에 대해서 알아봅니다.

GridSearchCV이 뭔지 간단하게 말하면 데이터를 잘 쪼개서 최적의 데이터셋을 만들어내는 방법입니다.

GridSearchCV를 사용하면서 아래의 학습 알고리즘을 사용합니다.

SVC

Random Forest

XGBoost

라는 애들이 나옵니다.

다 머신러닝 지도학습 모델인데 SVM부터 보겠습니다.

SVM(Support Vectore Machine)는 결정경계(Decision Boundary)를 찾는 모델입니다.

SVM에 파라메터 c값이 나오는데

c 값이 클 수록 하드마진(오류 허용 x)입니다.

gamma라는 값도 나오는데 결정 경계를 어떻게 그을까 하는 것입니다.

gamma값을 높이면 경계를 구불구불하게 긋습니다.(오버피팅 우려가 있죠?)

RandomForestClassifier()는 어떨때 쓸까요?

다양한 결정트리를 결합하는 것인데

여기에 n_estimators 라는 파라메터가 나오는데 얘는 tree의 수를 지정해주는 것입니다.

XGBoost는 일반적인 머신러닝 알고리즘으로 n_estimators는

라고 나와있습니다.

참조

SMOTE(synthetic minority oversampling technique) (0)	2020.04.21
Confusion Matrix (0)	2020.04.21
Breast Cancer Wisconsin (Diagnostic) Data Set (0)	2020.04.20
Kaggle 문제를 풀고 느낀 점 (0)	2020.04.19
boxplot (0)	2020.04.19

-