머신러닝에서 데이터를 학습시킬 때, 당연히 데이터를 컴퓨터가 학습할 수 있게 가공해야 합니다.
그 중에 원 핫 인코딩과, 피처 스케일링에 대해 알아보겠습니다.
원 핫 인코딩 (one-hot encoding) : 원 핫 인코딩에 대해서 알아보겠습니다.
["머신러닝", "딥러닝", "배우기"] 라는 애들의 데이터 집합이 있다고 생각해보겠습니다.
머신러닝 : 0
딥러닝 :1
배우기 : 2
라고 해서 숫자값을 해당되는 문자에 부여해서 컴퓨터가 읽을 수 있는 값으로 변환시킵니다.
얘를 벡터 형태로 바꾸면
[[0,0,1]
[0,1,0]
[1,0,0]]
와 같이 벡터 형태로도 변경해서 사용할 수 있습니다.
다만 원 핫 인코딩의 경우 단어의 개수가 늘어나면 벡터의 크기가 계속 커진다는 단점이 있습니다. 또한, 단어들간의 유사성(예를 들면 머신러닝과 딥러닝이 얼마나 유사한가)에 대해서도 알지 못합니다. 때문에, 원 핫 인코딩의 한계가 있습니다.
피처 스케일링 : 데이터들이 가늠하기 쉬운 범위에 있게 스케일링을 해서 조절을 해줘야 합니다.
아래의 그림을 보면 되는데
min-max 스케일링, 표준화(분산 스케일링) 등이 있습니다.
'개발 > 파이썬 머신러닝 완벽가이드 정리' 카테고리의 다른 글
ROC, AUC (0) | 2020.01.24 |
---|---|
classification성능평가와 accuracy (0) | 2020.01.22 |
하이퍼파라미터, GridSearchCV (0) | 2020.01.22 |
교차검증 (0) | 2020.01.22 |
학습데이터 테스트 데이터 (0) | 2020.01.22 |