군집화(Clustering)에 대해서 알아보겠습니다.
이름에서 보이다시피, 어느 그룹에 묶는다고 생각하시면 될 것 같습니다.
그러면 군집화(Clustering)과, 분류(classification)이 뭐가 다른가? 에 대한 의문이 드실 수도 있습니다.
군집화의 경우 Label이 없는 것으로 나눕니다. 그러니깐 컴퓨터에게 이런 것이라고 feature를 정해주지 않고, 알아서 비슷한 것들 끼리 묶는다 라고 생각해주시면 됩니다.
실생활에서는, 고객을 세분화할 때 사용합니다. 고객을 세분화하여 마케팅 전략을 짜거나
이미지들의 특성을 세분화하여 나눠서 사용합니다.
K-means알고리즘의 경우 각 클러스트와 거리 차이의 분산을 최소화하는 방식으로 동작됩니다.
장점 - 알고리즘이 간단하고 대용량 데이터에 적용이 용이합니다.
단점 - 거리 기반 알고리즘으로, 속성의 개수 많을수록 정확도가 떨어질 수 있습니다.
참조
[1] - https://leonard92.tistory.com/9
[2] - https://ko.wikipedia.org/wiki/K-%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98
'개발 > 파이썬 머신러닝 완벽가이드 정리' 카테고리의 다른 글
추천 (0) | 2020.02.28 |
---|---|
군집화 용어 (0) | 2020.02.17 |
과소적합과 과적합(Overfitting, underfitting) (0) | 2020.02.10 |
XGBoost, LightGBM (0) | 2020.01.27 |
앙상블학습, 배깅, 보팅 (0) | 2020.01.25 |