개발/파이썬 머신러닝 완벽가이드 정리

군집화 용어

개복치 개발자 2020. 2. 17. 21:13

 

군집화를 공부하다보면 새로운 용어가 많이 등장합니다.

 

Mean Shift 라는 애가 나오는데, 데이터를 중심으로 이동하는 방법입니다. bandwidth의 크기에 따라, 군집화 영향도가 큰데, 오버피팅을 방지하기 위해 적당한 bandwidth를 사용해야 합니다.

 

그리고 KDE(Kernel Density Estimation)인데, 군집화에서 밀도를 추측하는 방법입니다.

 

또한 모수적 방법과 미보수적 방법이라고 있는데, 어떠한 표본의 경우에 정규분포를 띈다고 가정했을 때, 이 표본이 굉장히 작다면, 정규분포를 띄지 않습니다. 이 때 모수적 방법을 사용하지 않는 비모수적 방법이라는 것을 사용해서 추정을 합니다.

 

가우시안 분포 라는 것도 나오는데, 정규분포의 다른 말 입니다. 

 

GMM(Gaussian Mixture Model)은 말 그대로 여러개의 가우시안 분포가 짬봉된 모델인데, 현실세계의 복잡한 모델을 한개로 표현할 수 없어 여러가지로 짬봉해서 씁니다.

 

DbSCAN(밀도 기반 클러스터링)이라는 것도 사용하는데, 밀도가 높은 부분을 기반으로(중심점) 클러스터링 하는 방법입니다.

 

 

 

 

 

참조

[1] -https://medium.com/qandastudy/mathpresso-%EB%A8%B8%EC%8B%A0-%EB%9F%AC%EB%8B%9D-%EC%8A%A4%ED%84%B0%EB%94%94-14-%EB%B0%80%EB%8F%84-%EC%B6%94%EC%A0%95-density-estimation-38fd7ef729bb

[2] - https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC

[3] - https://darkpgmr.tistory.com/64

[4] - https://bcho.tistory.com/1205

'개발 > 파이썬 머신러닝 완벽가이드 정리' 카테고리의 다른 글

추천  (0) 2020.02.28
군집화(K-Means)  (0) 2020.02.17
과소적합과 과적합(Overfitting, underfitting)  (0) 2020.02.10
XGBoost, LightGBM  (0) 2020.01.27
앙상블학습, 배깅, 보팅  (0) 2020.01.25