개발/Kaggle

GridSearchCV

개복치 개발자 2020. 4. 21. 00:06

GridSearchCV에 대해서 알아봅니다.

 

GridSearchCV이 뭔지 간단하게 말하면 데이터를 잘 쪼개서 최적의 데이터셋을 만들어내는 방법입니다.

 

GridSearchCV를 사용하면서 아래의 학습 알고리즘을 사용합니다.

 

SVC

Random Forest

XGBoost

 

라는 애들이 나옵니다.

 

다 머신러닝 지도학습 모델인데 SVM부터 보겠습니다.

 

SVM(Support Vectore Machine)는 결정경계(Decision Boundary)를 찾는 모델입니다.

 

SVM에 파라메터 c값이 나오는데

c 값이 클 수록 하드마진(오류 허용 x)입니다.

 

gamma라는 값도 나오는데 결정 경계를 어떻게 그을까 하는 것입니다.

gamma값을 높이면 경계를 구불구불하게 긋습니다.(오버피팅 우려가 있죠?)

 

RandomForestClassifier()는 어떨때 쓸까요?

 

다양한 결정트리를 결합하는 것인데 

 

여기에 n_estimators 라는 파라메터가 나오는데 얘는 tree의 수를 지정해주는 것입니다.

 

XGBoost는 일반적인 머신러닝 알고리즘으로 n_estimators는

  • Number of gradient boosted trees. Equivalent to number of boosting rounds.

라고 나와있습니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

참조

[1] - http://hleecaster.com/ml-svm-concept/

 

 

 

'개발 > Kaggle' 카테고리의 다른 글

SMOTE(synthetic minority oversampling technique)  (0) 2020.04.21
Confusion Matrix  (0) 2020.04.21
Breast Cancer Wisconsin (Diagnostic) Data Set  (0) 2020.04.20
Kaggle 문제를 풀고 느낀 점  (0) 2020.04.19
boxplot  (0) 2020.04.19