일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 그로스해킹
- activation
- model_selection
- BM분석
- allra
- 비즈니스모델
- 서말리포켓
- mysql설치 #mysql #mysqluser #mysqlworkbench
- 셀프스토리지
- 전환율
- retention
- 바로팜
- 인게이지먼트
- 올라
- fundbox
- aarrr
- 머신러닝
- 퍼널분석
- sklearn
- 역설구조
- CAC
- pmf
- 코호트
- 핀테크
- 한장으로끝내는비즈니스모델100
- 리텐션
- 팔방이익구조
- 데이터분석
- 활성화
- 선정산서비스
- Today
- Total
목록분류 전체보기 (89)
데이터로그😎

1. SQLSQL(Structured Query Language)는 관계형 데이터베이스 관리 시스템(RDBMS)의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어입니다. Query는 SQL을 사용해서 데이터베이스에 보내는 질문이나 요청 자체를 말합니다. 요약하자면 SQL은 언어이고, Query는 그 언어로 작성한 문장이라고 볼 수 있습니다.1.1. SQL 문법 유형 (기능에 따른 분류)queryDMLDDLDCLTCL의미Data Manipulation Language데이터 조작Data Definition Language데이터 구조 정의Data Control Language권한 제어Transaction Control Language트랜잭션 제어명령어SELECT, INSERT, DELETE,UPDA..

군집화를 실행한 후 군집화가 얼마나 효율적으로 됐는지 어떻게 평가할까? 군집화의 성능을 평가하는 대표적인 방법 : 실루엣 분석 실루엣 분석 (silhouette analysis)각 군집 간의 거리가 얼마나 *효율적으로 분리*돼 있는지를 나타냄효율적으로 분리되어 있다 = 다른 군집과의 거리는 멀고 동일 군집끼리의 데이터는 가깝게 뭉쳐있다.실루엣 분석은 실루엣 계수를 기반으로 한다.실루엣 계수: 개별 데이터가 가지는 군집화 지표. 같은 군집 내의 데이터와 얼마나 가깝게 군집화돼 있고, 다른 군집에 있는 데이터와는 얼마나 멀리 분리돼 있는지를 나타내는 지표.사이킷런 메소드sklearn.metircs.silhouette_samples(X, labels, metric='euclidean', **kwds) X = ..

비모수 추정 방법 (Non-parametric Clustering) MeanshiftDBSCAN군집 개수사전 설정 X기반밀도 기반언제 사용?데이터가 밀도가 높은 영역에 모여있는 경우높은 차원 데이터에 대해 특징군집의 중심을 찾기 위해 데이터가 밀집한 영역으로 이동하는 알고리즘. ( 좀비가 이동하면서 영역을 확장하는 느낌)데이터 분포도(밀도)를 계산하여 높은 쪽으로 군집 중심점이 이동데이터 분포가 기하학적일 때 사용데이터 군집의 반경 & 최소 데이터 개수를 설정하여 군집화 진행이상치 제거 가능(noise)파라미터bandwidth = KDE의 대역폭h = 표준편차대역폭 크기 설정이 군집화의 품질에 큰 영향 미침h ↓: 뾰족한 KDE, 변동성이 큰 밀도함수, 과대적합, 중심점 많h ↑: 과하게 부드러운 모양,..

KMeans vs GMM k-meansGMM(Gaussian Mixture Model)군집 개수군집 개수 parameter 사전 설정군집 방식거리 기반확률 기반언제 사용?클러스터 개수를 미리 알고 있을 때진행 과정군집 개수를 n_cluster 파라미터에서 설정 → 각 군집에 가까운 데이터들이 각 군집에 소속 → 새로운 군집이 만들어지면 군집의 평균으로 중심점이 이동 → 거기서 다시 가까운 데이터 기준으로 군집 형성 → 더이상 중심점이 이동하지 않을 때까지 진행 (or max_iter로 횟수 제한)가정: 데이터가 여러개의 가우시안 분포를 가짐먼저 정규분포 형태 몇가지를 추출해놓고 각 데이터가 이 중 어디에 속할 것인지를 판별하는 것.파라미터n_clusters: 군집화할 개수init: 초기 군집 중심점의 좌..
군집(clustering)고객, 마켓, 브랜드 등을 세분화/ 이미지 검출/이상 검출.. 등에 사용됨.데이터의 특성을 파악해서 유사한 특성을 가진 데이터들끼리 그룹화 하는 것.데이터의 특성을 이용해 서로 다른 그룹을 구분하는데, 이를 통해 데이터의 구조나 패턴을 파악할 수 있음. 모수 추정 방법(Parametric Clustering)비모수 추정 방법(Non-parametric Clustering)정의데이터가 특정 데이터 분포를 따른다는 가정모수 추정 방법은 군집화할 때 사용하는 모델에 **매개변수(parameter)**를 가정하고, 이 매개변수를 추정해가며 클러스터링을 수행하는 방법입니다.데이터가 특정분포를 따르지 않는다고 가정비모수 추정 방법은 모델에 매개변수를 가정하지 않고, 데이터 자체에서 패턴을 ..
특잇값분해!!!고유값 분해와 달리 모든 행렬에 적용 가능: 이미지 처리, 자연어 처리, 추천 시스템 등에 사용A = UΣV^TA: m x n 크기의 행렬특이벡터:U: m x m 크기의 직교행렬(orthogonal matrix) (A행렬의 행)V: n x n 크기의 직교행렬 (A행렬의 열)Σ: m x n 크기의 직사각 대각행렬(rectangular diagonal matrix)이며, 대각원소인 특이값(singular value)들은 0 이상의 실수 (A행렬 행x열) SVD(Singular Value Decomposition)Σ의 비대각 부분과 특이값 중 0인 부분을 제거제거된 Σ에 대응하는 U와 V원소도 함께 제거하여 차원 줄이는 것불러올 때from scipy.linalg import svd 둘다 사용 가..