개발/Kaggle 36

Confusion Matrix

Confusion Matrix라고 모델 평가항목입니다. True Positives : 1인 레이블을 1이라 하는 경우를 True Positives라고 한다. -> 관심 범주를 정확하게 분류한 값. False Negatives : 1인 레이블을 0이라 하는 경우를 False Negatives라고 한다. -> 관심 범주가 아닌것으로 잘못 분류함. False Positives : 0인 레이블을 1이라 하는 경우를 False Positives라고 한다. -> 관심 범주라고 잘못 분류함. True Negatives : 0인 레이블을 0이라 하는 경우를 True Negatives라고 한다. -> 관심 범주가 아닌것을 정확하게 분류. 참조 [1] - https://yamalab.tistory.com/50

개발/Kaggle 2020.04.21

GridSearchCV

GridSearchCV에 대해서 알아봅니다. GridSearchCV이 뭔지 간단하게 말하면 데이터를 잘 쪼개서 최적의 데이터셋을 만들어내는 방법입니다. GridSearchCV를 사용하면서 아래의 학습 알고리즘을 사용합니다. SVC Random Forest XGBoost 라는 애들이 나옵니다. 다 머신러닝 지도학습 모델인데 SVM부터 보겠습니다. SVM(Support Vectore Machine)는 결정경계(Decision Boundary)를 찾는 모델입니다. SVM에 파라메터 c값이 나오는데 c 값이 클 수록 하드마진(오류 허용 x)입니다. gamma라는 값도 나오는데 결정 경계를 어떻게 그을까 하는 것입니다. gamma값을 높이면 경계를 구불구불하게 긋습니다.(오버피팅 우려가 있죠?) RandomFor..

개발/Kaggle 2020.04.21

Kaggle 문제를 풀고 느낀 점

Kaggle 이라는 데이터 커뮤니티의 문제를 보다가 깨달음이 왔는데 그냥 이게 뭐 데이터를 가지고 이것저것 하고 엄청 어려운 것 같은데 자세히 보면은 별게 아닙니다. 그냥 pandas를 이용해서 데이터를 뭐 약간 수정하고 몇가지 머신러닝 알고리즘 이용해서 적용해주면 끝이네요... 뭐 정말 정확도를 높이고 이런 작업에는 더 다양한 테크닉이 필요하겠지만, 입문용으로는 이정도만 알면 되는 것 같습니다.

개발/Kaggle 2020.04.19

Restaurant Revenue Prediction

Restaurant Revenue Prediction에 대해서 아봅니다. 각 데이터가 의미하는 것은 아래와 같습니다. File descriptions train.csv - the training set. Use this dataset for training your model. test.csv - the test set. To deter manual "guess" predictions, Kaggle has supplemented the test set with additional "ignored" data. These are not counted in the scoring. sampleSubmission.csv - a sample submission file in the correct format Dat..

개발/Kaggle 2020.04.19

catboost

Catboost에 대해서 알아보기 전에 일단 GBM(Gradient Boosting Algorithm) 부터 알고 가봅니다. 머신러닝에서 부스팅(Boosting)이라는 것은 약한 학습기를 여러개 결합해서 정확도가 높은 학습 모델을 만드는 것입니다. 그러면 Gradient Boosting은 당연히 경사하강법을 통해서 만들어진 학습 모델 여러개를 합쳐서 정확도가 높은 모델을 만드는 것입니다. 다시 Catboost로 돌아오면, catboost는 GBM을 구현해놓은 패키지중 하나입니다. LightGBM, XGBoost도 마찬가지입니다. 참조 https://4four.us/article/2017/05/gradient-boosting-simply https://3months.tistory.com/368 https:..

개발/Kaggle 2020.04.10