일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 비즈니스모델
- 바로팜
- 머신러닝
- 셀프스토리지
- 그로스해킹
- 핀테크
- allra
- 코호트
- aarrr
- sklearn
- retention
- 서말리포켓
- pmf
- 한장으로끝내는비즈니스모델100
- 리텐션
- 선정산서비스
- mysql설치 #mysql #mysqluser #mysqlworkbench
- 데이터분석
- 퍼널분석
- 역설구조
- activation
- 팔방이익구조
- 활성화
- BM분석
- CAC
- 전환율
- model_selection
- fundbox
- 인게이지먼트
- 올라
- Today
- Total
목록#4. 기타 공부 (55)
데이터로그😎
선형회귀 방식을 분류에 적용한 알고리즘 → 분류에 사용됨Logistic Regression은 선형 회귀와 유사한데, 출력값이 0과 1 사이의 값으로 제한되도록 변형된 모델입니다. 이를 위해 입력 데이터의 **가중합(가중치와 특성값의 곱의 합)**을 시그모이드 함수(sigmoid function)에 적용합니다. 시그모이드 함수는 S자 형태의 곡선으로, 입력값이 큰 음수일 때 0에 가까운 값, 입력값이 큰 양수일 때 1에 가까운 값, 입력값이 0일 때 0.5의 값을 출력합니다.이렇게 입력 데이터의 가중합을 시그모이드 함수에 적용하면, 모델의 출력값은 0과 1 사이의 값으로 제한됩니다. 이 값은 해당 샘플이 양성 클래스에 속할 확률로 해석할 수 있습니다. 예를 들어, 출력값이 0.7일 경우 해당 샘플이 양성 ..

회귀, 분류에 모두 사용 가능‘정보 균일도’ 라는 룰을 기반으로 하고 있어 알고리즘이 직관적임.정보균일도 측정 지표정의정보이득지수1-엔트로피 지수(혼잡도, 서로 다른값많으면 엔트로피 높음)결정트리는 정보이득지수가 높은 속성을 기준으로 분할정보이득지수↑ 데이터 균일도 ↑지니계수불평등지수0 가장 평등 → 1 불평등결정트리는 지니계수가 낮은 속성을 기준으로 분할지니계수↓ 데이터 균일도↑ Decision Tree Classification의 파라미터min_samples_split노드를 분할하기 위해 필요한 최소한의 샘플 수min_samples_split=2로 설정하면 노드를 분할하려면 적어도 2개의 샘플이 있어야 함 값을 늘리면 트리의 깊이가 줄어들고 모델이 더 간단해지며, 과적합을 줄일 수 있음 작은 값은 더..
분류는 언제 사용하는가: 예측 결과가 숫자가 아닐때스팸메일 필터링(스팸 yes or no)시험 합격 여부(합격 or 불합격)재활용품 분리수거 품목(캔, 스티로폼…)암 여부( 악성 or 종양 )분류에 사용되는 머신러닝 알고리즘Naive-Bayes 나이브베이즈Logistic Regression: 독립변수-종속변수의 선형관계성에 기반Decision Tree: 데이터 균일도에 따른 규칙 기반Support Vector machineNearest NeighborNeural NetworkEnsemble: 서로 다른 머신러닝 알고리즘 결합

1. 정확도(accurcay)2. 오차행렬(confusion matrix)3. 정밀도(precision)4. 재현율(recall)5. F1 score6. ROC AUC0. 데이터 준비암 데이터 받아오기from sklearn.datasets import load_breast_cancerimport pandas as pdimport numpy as npcancer = load_breast_cancer()data = cancer.datatarget = cancer.targetfeature_names = cancer.feature_namesdf = pd.DataFrame(data= data, columns = feature_names)df['target'] = targetdf target 변경#cancer.ta..

1. 데이터 인코딩 1-1. 레이블 인코딩 1-2. 원-핫 인코딩 2. 피처 스케일링 2-1. StandardScaler (표준화) 2-2. MinMaxScaler(정규화) 1. 데이터 인코딩 1-1. 레이블 인코딩 언제 사용하는가? 문자열 → 숫자열로 인코딩하기 좋음 각 레이블에 고유의 숫자들을 매길 때 사용 fit items 리스트에 있는 고유한 문자열을 찾아냄. TV=0, 냉장고= 1, 전자레인지=2, 컴터=3, 선풍기=4, 믹서=5로 매팽할 방법을 학습함. transform items 리스트의 값들을 이전에 학습된 방법에 따라 인코딩. tv → 0, 냉장고 → 1, 전자레인지 → 2,... 로 인코딩. from sklearn.preprocessing import LabelEncoder items=..

1. 학습데이터/테스트 데이터 분리 1-1. train_test_split() 2. 교차검증 분할, 평가 2-1. KFold 2-2. StratifiedKFold 2-3. cross_val_score 3. 교차검증 + 최적 하이퍼 파라미터 튜닝 한번에 3-1. GridSearchCV 1. 학습데이터, 테스트 데이터 분리 1-1. train_test_split() 여기서는 iris dataset를 이용해보겠다. load_iris를 통해 받을 수 있고, 딕셔너리 형식이다. from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris from sklearn.tree import DecisionT..