군집화(K-Means)

개발/파이썬 머신러닝 완벽가이드 정리

----___<<<<< 2020. 2. 17. 19:23

군집화(Clustering)에 대해서 알아보겠습니다.

이름에서 보이다시피, 어느 그룹에 묶는다고 생각하시면 될 것 같습니다.

그러면 군집화(Clustering)과, 분류(classification)이 뭐가 다른가? 에 대한 의문이 드실 수도 있습니다.

군집화의 경우 Label이 없는 것으로 나눕니다. 그러니깐 컴퓨터에게 이런 것이라고 feature를 정해주지 않고, 알아서 비슷한 것들 끼리 묶는다 라고 생각해주시면 됩니다.

실생활에서는, 고객을 세분화할 때 사용합니다. 고객을 세분화하여 마케팅 전략을 짜거나

이미지들의 특성을 세분화하여 나눠서 사용합니다.

K-means알고리즘의 경우 각 클러스트와 거리 차이의 분산을 최소화하는 방식으로 동작됩니다.

장점 - 알고리즘이 간단하고 대용량 데이터에 적용이 용이합니다.

단점 - 거리 기반 알고리즘으로, 속성의 개수 많을수록 정확도가 떨어질 수 있습니다.

참조

추천 (0)	2020.02.28
군집화 용어 (0)	2020.02.17
과소적합과 과적합(Overfitting, underfitting) (0)	2020.02.10
XGBoost, LightGBM (0)	2020.01.27
앙상블학습, 배깅, 보팅 (0)	2020.01.25

-