앙상블 방법 중에 하나인 Stacking이 있습니다.
기존의 학습 방법과는 조금 다른데
기존 학습 방법의 경우
1. 데이터를 Train, Test로 쪼갠다.
2. Train데이터를 이용해 머신러닝 알고리즘을 이용해서 머신러닝 모델을 학습하고
3. 머신러닝 모델을 가지고 Test데이터를 평가
이런 형태로 동작됩니다.
하지만 스태킹 앙상블의 경우는 약간 다른데
각각의 모델이 예측한 데이터를 다시 Training 데이터로 이용합니다.
1. 데이터를 Train, Test로 쪼갠다.
2. Train데이터를 이용해 머신러닝 알고리즘을 이용해서 머신러닝 모델을 학습하고
stacking은 여기서 각각이 머신러닝이 만들어낸 모델의 데이터를 기반으로 최종 데이터를 생성합니다.
3. 머신러닝 모델을 가지고 Test데이터를 평가
하지만 스태킹 앙상블의 경우 오버피팅의 문제점이 있어, CV(교차검증)의 KFold 기반 등의 stacking 앙상블을 사용합니다.
참고
[1] - https://lsjsj92.tistory.com/558
[2] - https://lsjsj92.tistory.com/559?category=853217
'개발 > Kaggle' 카테고리의 다른 글
Stacking 실습 (0) | 2020.06.07 |
---|---|
보팅(Voting)이란 (0) | 2020.06.07 |
램덤 포레스트 사용법 (0) | 2020.05.18 |
XGBoost classification (0) | 2020.05.17 |
XGBoost Regression (0) | 2020.05.17 |