GridSearchCV에 대해서 알아봅니다.
GridSearchCV이 뭔지 간단하게 말하면 데이터를 잘 쪼개서 최적의 데이터셋을 만들어내는 방법입니다.
GridSearchCV를 사용하면서 아래의 학습 알고리즘을 사용합니다.
SVC
Random Forest
XGBoost
라는 애들이 나옵니다.
다 머신러닝 지도학습 모델인데 SVM부터 보겠습니다.
SVM(Support Vectore Machine)는 결정경계(Decision Boundary)를 찾는 모델입니다.
SVM에 파라메터 c값이 나오는데
c 값이 클 수록 하드마진(오류 허용 x)입니다.
gamma라는 값도 나오는데 결정 경계를 어떻게 그을까 하는 것입니다.
gamma값을 높이면 경계를 구불구불하게 긋습니다.(오버피팅 우려가 있죠?)
RandomForestClassifier()는 어떨때 쓸까요?
다양한 결정트리를 결합하는 것인데
여기에 n_estimators 라는 파라메터가 나오는데 얘는 tree의 수를 지정해주는 것입니다.
XGBoost는 일반적인 머신러닝 알고리즘으로 n_estimators는
-
Number of gradient boosted trees. Equivalent to number of boosting rounds.
라고 나와있습니다.
참조
[1] - http://hleecaster.com/ml-svm-concept/
'개발 > Kaggle' 카테고리의 다른 글
SMOTE(synthetic minority oversampling technique) (0) | 2020.04.21 |
---|---|
Confusion Matrix (0) | 2020.04.21 |
Breast Cancer Wisconsin (Diagnostic) Data Set (0) | 2020.04.20 |
Kaggle 문제를 풀고 느낀 점 (0) | 2020.04.19 |
boxplot (0) | 2020.04.19 |