개발/Kaggle 36

앙상블 학습(Ensemble)

앙상블 학습에 대해 알아보면 음식에서 앙상블을 이룬다는 말을 쓰는 것 처럼 앙상블 학습도 마찬가지로 이것저것 섞어서 조화를 이룬다 라는 의미로 쓰입니다. 그러니깐 어떤 학습 모델을 만드는데 이것저것 섞으니깐 성능이 더 잘나오더라 하는 부분입니다. 배깅과 부스팅으로 나눠서 설명해보면 배깅(bagging) 샘플을 여러번 뽑아서 가장 좋은 애를 선택해서 사용하는 것입니다. 배깅을 이용하는 방법이 랜덤포레스트입니다. 부스팅(Boosting) 그러면 부스팅은 무엇인가 보면 모델을 여러개 학습시켜, 약한 학습기를 이용해 강한 학습기를 만드는 것입니다. 참조 [1] - https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-11-%EC%95%99%..

개발/Kaggle 2020.05.17

LogisticRegression

LogisticRegression에 대해 알아보겠습니다. 쉽게 말하면 Yes or No로 구분하는 문제입니다. 이렇게 일정수준 이상은 합격이고 아래는 불합격인 데이터가 있다고 보면 이런 그래프를 그어서 이 데이터들을 예측할 수 있습니다. sklearn 을 이용하여 구현할 수 있습니다. 여기보면 confusion_matrix라는 것이 나오는데 그러니깐 파란색으로 된 부분은 예측이 맞은거고 빨간색으로 된 부분은 예측이 들린 부분입니다. 참조 https://realpython.com/logistic-regression-python/

개발/Kaggle 2020.05.12

Pima Indians Diabetes Database

https://www.kaggle.com/uciml/pima-indians-diabetes-database Pima Indians Diabetes Database Predict the onset of diabetes based on diagnostic measures www.kaggle.com Pima 인디언 관련 당뇨병 데이터를 보고 당뇨병을 예측하는 것입니다. Content The datasets consists of several medical predictor variables and one target variable, Outcome. Predictor variables includes the number of pregnancies the patient has had, their BMI, ins..

개발/Kaggle 2020.04.24

Caterpillar Tube Pricing Predicting

Caterpillar Tube Pricing Predicting 에 대한 것입니다. https://www.kaggle.com/c/caterpillar-tube-pricing/data 불러오는 중입니다... 무슨 건설기계 튜브 얼마나 견적내줘야하는지에 대학 예측입니다. bill_of_materials.csv This file contains the list of components, and their quantities, used on each tube assembly. specs.csv This file contains the list of unique specifications for the tube assembly. These can refer to materials, processes, rust p..

개발/Kaggle 2020.04.21

SMOTE(synthetic minority oversampling technique)

SMOTE에 대해서 알아보겠습니다. 예를 들면, 카드사기 dataset을 분석할 때, 사기가 아닌 데이터는 1000개인데, 사기 데이터는 3개일 수 있습니다. 이러면 사기 데이터를 분석하기가 매우 어렵다. 정확도가 높아도 재현율이 작아지는 현상이 발생하는데 SMOTE(를 이용해서 오버샘플링 기법을 활용합니다. SMOTE를 이용해서 합성 데이터를 생성합니다. 참조 [1] - https://mkjjo.github.io/python/2019/01/04/smote_duplicate.html

개발/Kaggle 2020.04.21