데이터로그😎

군집 (clustering) 본문

머신러닝/비지도 학습

군집 (clustering)

지연v'_'v 2023. 9. 5. 16:26

군집(clustering)

  • 고객, 마켓, 브랜드 등을 세분화/ 이미지 검출/이상 검출.. 등에 사용됨.
  • 데이터의 특성을 파악해서 유사한 특성을 가진 데이터들끼리 그룹화 하는 것.
  • 데이터의 특성을 이용해 서로 다른 그룹을 구분하는데, 이를 통해 데이터의 구조나 패턴을 파악할 수 있음.
  모수 추정 방법
(Parametric Clustering)
비모수 추정 방법
(Non-parametric Clustering)
정의
  • 데이터가 특정 데이터 분포를 따른다는 가정
  • 모수 추정 방법은 군집화할 때 사용하는 모델에 **매개변수(parameter)**를 가정하고, 이 매개변수를 추정해가며 클러스터링을 수행하는 방법입니다.
  • 데이터가 특정분포를 따르지 않는다고 가정
  • 비모수 추정 방법은 모델에 매개변수를 가정하지 않고, 데이터 자체에서 패턴을 찾아 클러스터링을 수행하는 방법입니다.
종류 K-Means , GMM DBSCAN, Hierarchical Clustering,
Mean Shift



모수 추정 방법(Parametric Clustering)

  k-means GMM(Gaussian Mixture Model)
군집 개수 군집 개수 parameter 사전 설정
군집 방식 거리 중심 기반 확률 기반
언제 사용? 클러스터 개수를 미리 알고 있을 때
진행 과정
  • 군집 개수를 n_cluster 파라미터에서 설정 → 각 군집에 가까운 데이터들이 각 군집에 소속 → 새로운 군집이 만들어지면 군집의 평균으로 중심점이 이동 → 거기서 다시 가까운 데이터 기준으로 군집 형성 → 더이상 중심점이 이동하지 않을 때까지 진행 (or max_iter로 횟수 제한)
  • 가정: 데이터가 여러개의 가우시안 분포를 가짐
  • 먼저 정규분포 형태 몇가지를 추출해놓고 각 데이터가 이 중 어디에 속할 것인지를 판별하는 것.
파라미터
  • 클러스터 수 (k): 군집의 개수
  • 초기 중심 초기화 방법 (Initialization Method): 초기 중심을 어떻게 설정할 것인지를 지정. 주로 'k-means++', 'random' 등이 사용됨.
  • 반복 횟수 또는 수렴 조건 (Max Iterations 또는 Tolerance): 최적 중심을 찾기 위한 반복 횟수를 제한하거나, 중심 이동이 더 이상 크게 변하지 않을 때까지의 수렴 조건을 설정.
  • 클러스터 수 (k): 군집의 개수
기타
  • 동그라미 모양으로 군집
- 통발 미리 만들어놓고 물고기를 분류하는..
- 모수 추정을 위해 EM(expectation, maximization) 사용

 

비모수 추정 방법 (Non-parametric Clustering)

  Meanshift DBSCAN
군집 개수 사전 설정 X
기반 밀도 기반
언제 사용? 데이터가 밀도가 높은 영역에 모여있는 경우 높은 차원 데이터에 대해 
특징
  • 군집의 중심을 찾기 위해 데이터가 밀집한 영역으로 이동하는 알고리즘. ( 좀비가 이동하면서 영역을 확장하는 느낌)
  • bandwidth 파라미터 → 표준편차를 설정
    • 하나하나 BW알아보기 힘드니 estimate_bandwidth이용
  • 데이터 분포도(밀도)를 계산하여 높은 쪽으로 군집 중심점이 이동
  • 데이터 분포가 기하학적일 때 사용
  • 데이터 군집의 반경 & 최소 데이터 개수를 설정하여 군집화 진행
  • 이상치 제거 가능(noise)
  • 파라미터 
    • 입실론eps
    • min_samples
  •  

'머신러닝 > 비지도 학습' 카테고리의 다른 글

군집 평가  (0) 2023.09.05
Meanshift vs DBSCAN  (0) 2023.09.05
KMeans, GMM  (0) 2023.09.05