일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- CAC
- retention
- 한장으로끝내는비즈니스모델100
- pmf
- 전환율
- 데이터분석
- aarrr
- 그로스해킹
- 바로팜
- model_selection
- 머신러닝
- 선정산서비스
- 리텐션
- BM분석
- 인게이지먼트
- 셀프스토리지
- mysql설치 #mysql #mysqluser #mysqlworkbench
- 코호트
- 비즈니스모델
- 퍼널분석
- allra
- 팔방이익구조
- sklearn
- 올라
- 서말리포켓
- activation
- fundbox
- 활성화
- 핀테크
- 역설구조
- Today
- Total
목록#4. 기타 공부/#4.2. 머신러닝 (22)
데이터로그😎

군집화를 실행한 후 군집화가 얼마나 효율적으로 됐는지 어떻게 평가할까? 군집화의 성능을 평가하는 대표적인 방법 : 실루엣 분석 실루엣 분석 (silhouette analysis)각 군집 간의 거리가 얼마나 *효율적으로 분리*돼 있는지를 나타냄효율적으로 분리되어 있다 = 다른 군집과의 거리는 멀고 동일 군집끼리의 데이터는 가깝게 뭉쳐있다.실루엣 분석은 실루엣 계수를 기반으로 한다.실루엣 계수: 개별 데이터가 가지는 군집화 지표. 같은 군집 내의 데이터와 얼마나 가깝게 군집화돼 있고, 다른 군집에 있는 데이터와는 얼마나 멀리 분리돼 있는지를 나타내는 지표.사이킷런 메소드sklearn.metircs.silhouette_samples(X, labels, metric='euclidean', **kwds) X = ..

비모수 추정 방법 (Non-parametric Clustering) MeanshiftDBSCAN군집 개수사전 설정 X기반밀도 기반언제 사용?데이터가 밀도가 높은 영역에 모여있는 경우높은 차원 데이터에 대해 특징군집의 중심을 찾기 위해 데이터가 밀집한 영역으로 이동하는 알고리즘. ( 좀비가 이동하면서 영역을 확장하는 느낌)데이터 분포도(밀도)를 계산하여 높은 쪽으로 군집 중심점이 이동데이터 분포가 기하학적일 때 사용데이터 군집의 반경 & 최소 데이터 개수를 설정하여 군집화 진행이상치 제거 가능(noise)파라미터bandwidth = KDE의 대역폭h = 표준편차대역폭 크기 설정이 군집화의 품질에 큰 영향 미침h ↓: 뾰족한 KDE, 변동성이 큰 밀도함수, 과대적합, 중심점 많h ↑: 과하게 부드러운 모양,..

KMeans vs GMM k-meansGMM(Gaussian Mixture Model)군집 개수군집 개수 parameter 사전 설정군집 방식거리 기반확률 기반언제 사용?클러스터 개수를 미리 알고 있을 때진행 과정군집 개수를 n_cluster 파라미터에서 설정 → 각 군집에 가까운 데이터들이 각 군집에 소속 → 새로운 군집이 만들어지면 군집의 평균으로 중심점이 이동 → 거기서 다시 가까운 데이터 기준으로 군집 형성 → 더이상 중심점이 이동하지 않을 때까지 진행 (or max_iter로 횟수 제한)가정: 데이터가 여러개의 가우시안 분포를 가짐먼저 정규분포 형태 몇가지를 추출해놓고 각 데이터가 이 중 어디에 속할 것인지를 판별하는 것.파라미터n_clusters: 군집화할 개수init: 초기 군집 중심점의 좌..
군집(clustering)고객, 마켓, 브랜드 등을 세분화/ 이미지 검출/이상 검출.. 등에 사용됨.데이터의 특성을 파악해서 유사한 특성을 가진 데이터들끼리 그룹화 하는 것.데이터의 특성을 이용해 서로 다른 그룹을 구분하는데, 이를 통해 데이터의 구조나 패턴을 파악할 수 있음. 모수 추정 방법(Parametric Clustering)비모수 추정 방법(Non-parametric Clustering)정의데이터가 특정 데이터 분포를 따른다는 가정모수 추정 방법은 군집화할 때 사용하는 모델에 **매개변수(parameter)**를 가정하고, 이 매개변수를 추정해가며 클러스터링을 수행하는 방법입니다.데이터가 특정분포를 따르지 않는다고 가정비모수 추정 방법은 모델에 매개변수를 가정하지 않고, 데이터 자체에서 패턴을 ..
특잇값분해!!!고유값 분해와 달리 모든 행렬에 적용 가능: 이미지 처리, 자연어 처리, 추천 시스템 등에 사용A = UΣV^TA: m x n 크기의 행렬특이벡터:U: m x m 크기의 직교행렬(orthogonal matrix) (A행렬의 행)V: n x n 크기의 직교행렬 (A행렬의 열)Σ: m x n 크기의 직사각 대각행렬(rectangular diagonal matrix)이며, 대각원소인 특이값(singular value)들은 0 이상의 실수 (A행렬 행x열) SVD(Singular Value Decomposition)Σ의 비대각 부분과 특이값 중 0인 부분을 제거제거된 Σ에 대응하는 U와 V원소도 함께 제거하여 차원 줄이는 것불러올 때from scipy.linalg import svd 둘다 사용 가..

LDA vs PCA PCALDA특징주성분 분석 = 주가 되는 성분을 분석한다.PCA는 데이터의 고차원 공간에서 *가장 많은 분산(변동성)을 가지는 방향*을 찾아서 이를 기반으로 데이터를 저차원 공간으로 변환한다.PCA에서 '가장 많은 분산을 가지는'은 주어진 데이터셋에서 가장 많은 정보를 가지는 축(axis)을 찾는 것을 의미PCA와 유사하지만 중요한 차이점은 LDA에서는 지도학습의 분류(classification)에 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소함.입력 데이터의 결정 값 클래스를 최대한으로 분리할 수 있는 축을 찾는다.클래스 간 분산과 클래스 내부 분산의 비율을 최대화하는 방식으로 차원을 축소.클래스 간 분산은 최대한 크게 가져가고, 클래스 내부 분..