개발/파이썬 머신러닝 완벽가이드 정리

군집화(K-Means)

개복치 개발자 2020. 2. 17. 19:23

군집화(Clustering)에 대해서 알아보겠습니다. 

 

이름에서 보이다시피, 어느 그룹에 묶는다고 생각하시면 될 것 같습니다.

 

그러면 군집화(Clustering)과, 분류(classification)이 뭐가 다른가? 에 대한 의문이 드실 수도 있습니다.

 

군집화의 경우 Label이 없는 것으로 나눕니다. 그러니깐 컴퓨터에게 이런 것이라고 feature를 정해주지 않고, 알아서 비슷한 것들 끼리 묶는다 라고 생각해주시면 됩니다.

 

 

실생활에서는, 고객을 세분화할 때 사용합니다. 고객을 세분화하여 마케팅 전략을 짜거나

 

이미지들의 특성을 세분화하여 나눠서 사용합니다.

 

K-means알고리즘의 경우 각 클러스트와 거리 차이의 분산을 최소화하는 방식으로 동작됩니다.

 

장점 - 알고리즘이 간단하고 대용량 데이터에 적용이 용이합니다.

단점 - 거리 기반 알고리즘으로, 속성의 개수 많을수록 정확도가 떨어질 수 있습니다.

 

 

 

참조

[1] - https://leonard92.tistory.com/9

[2] - https://ko.wikipedia.org/wiki/K-%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98

 

 

 

 

 

'개발 > 파이썬 머신러닝 완벽가이드 정리' 카테고리의 다른 글

추천  (0) 2020.02.28
군집화 용어  (0) 2020.02.17
과소적합과 과적합(Overfitting, underfitting)  (0) 2020.02.10
XGBoost, LightGBM  (0) 2020.01.27
앙상블학습, 배깅, 보팅  (0) 2020.01.25