개발/파이썬 머신러닝 완벽가이드 정리

데이터 전처리

개복치 개발자 2020. 1. 22. 18:40

머신러닝에서 데이터를 학습시킬 때, 당연히 데이터를 컴퓨터가 학습할 수 있게 가공해야 합니다.

 

그 중에 원 핫 인코딩과, 피처 스케일링에 대해 알아보겠습니다.

 

원 핫 인코딩 (one-hot encoding) : 원 핫 인코딩에 대해서 알아보겠습니다.

 

["머신러닝", "딥러닝", "배우기"] 라는 애들의 데이터 집합이 있다고 생각해보겠습니다. 

 

머신러닝 : 0

딥러닝 :1

배우기 : 2

 

라고 해서 숫자값을 해당되는 문자에 부여해서 컴퓨터가 읽을 수 있는 값으로 변환시킵니다.

 

얘를 벡터 형태로 바꾸면

 

[[0,0,1]

[0,1,0]

[1,0,0]]

 

와 같이 벡터 형태로도 변경해서 사용할 수 있습니다.

 

다만 원 핫 인코딩의 경우 단어의 개수가 늘어나면 벡터의 크기가 계속 커진다는 단점이 있습니다. 또한, 단어들간의 유사성(예를 들면 머신러닝과 딥러닝이 얼마나 유사한가)에 대해서도 알지 못합니다. 때문에, 원 핫 인코딩의 한계가 있습니다.

 

피처 스케일링 : 데이터들이 가늠하기 쉬운 범위에 있게 스케일링을 해서 조절을 해줘야 합니다.

 

아래의 그림을 보면 되는데

 

min-max 스케일링, 표준화(분산 스케일링) 등이 있습니다.

 

 

 

 

 

참고1 - https://wikidocs.net/22647

참고2 - https://blog.ggaman.com/1010

'개발 > 파이썬 머신러닝 완벽가이드 정리' 카테고리의 다른 글

ROC, AUC  (0) 2020.01.24
classification성능평가와 accuracy  (0) 2020.01.22
하이퍼파라미터, GridSearchCV  (0) 2020.01.22
교차검증  (0) 2020.01.22
학습데이터 테스트 데이터  (0) 2020.01.22