목록머신러닝 (22)
데이터로그😎
회귀, 분류에 모두 사용 가능 ‘정보 균일도’ 라는 룰을 기반으로 하고 있어 알고리즘이 직관적임. 정보균일도 측정 지표 정의 정보이득지수 1-엔트로피 지수(혼잡도, 서로 다른값많으면 엔트로피 높음) 결정트리는 정보이득지수가 높은 속성을 기준으로 분할 정보이득지수↑ 데이터 균일도 ↑ 지니계수 불평등지수 0 가장 평등 → 1 불평등 결정트리는 지니계수가 낮은 속성을 기준으로 분할 지니계수↓ 데이터 균일도↑ Decision Tree Classification의 파라미터 min_samples_split 노드를 분할하기 위해 필요한 최소한의 샘플 수 min_samples_split=2로 설정하면 노드를 분할하려면 적어도 2개의 샘플이 있어야 함 값을 늘리면 트리의 깊이가 줄어들고 모델이 더 간단해지며, 과적합을 ..
분류는 언제 사용하는가: 예측 결과가 숫자가 아닐때 스팸메일 필터링(스팸 yes or no) 시험 합격 여부(합격 or 불합격) 재활용품 분리수거 품목(캔, 스티로폼…) 암 여부( 악성 or 종양 ) 분류에 사용되는 머신러닝 알고리즘 Naive-Bayes 나이브베이즈 Logistic Regression: 독립변수-종속변수의 선형관계성에 기반 Decision Tree: 데이터 균일도에 따른 규칙 기반 Support Vector machine Nearest Neighbor Neural Network Ensemble: 서로 다른 머신러닝 알고리즘 결합
1. 정확도(accurcay) 2. 오차행렬(confusion matrix) 3. 정밀도(precision) 4. 재현율(recall) 5. F1 score 6. ROC AUC 0. 데이터 준비 암 데이터 받아오기 from sklearn.datasets import load_breast_cancer import pandas as pd import numpy as np cancer = load_breast_cancer() data = cancer.data target = cancer.target feature_names = cancer.feature_names df = pd.DataFrame(data= data, columns = feature_names) df['target'] = target df ta..
1. 데이터 인코딩 1-1. 레이블 인코딩 1-2. 원-핫 인코딩 2. 피처 스케일링 2-1. StandardScaler (표준화) 2-2. MinMaxScaler(정규화) 1. 데이터 인코딩 1-1. 레이블 인코딩 언제 사용하는가? 문자열 → 숫자열로 인코딩하기 좋음 각 레이블에 고유의 숫자들을 매길 때 사용 fit items 리스트에 있는 고유한 문자열을 찾아냄. TV=0, 냉장고= 1, 전자레인지=2, 컴터=3, 선풍기=4, 믹서=5로 매팽할 방법을 학습함. transform items 리스트의 값들을 이전에 학습된 방법에 따라 인코딩. tv → 0, 냉장고 → 1, 전자레인지 → 2,... 로 인코딩. from sklearn.preprocessing import LabelEncoder items=..
1. 학습데이터/테스트 데이터 분리 1-1. train_test_split() 2. 교차검증 분할, 평가 2-1. KFold 2-2. StratifiedKFold 2-3. cross_val_score 3. 교차검증 + 최적 하이퍼 파라미터 튜닝 한번에 3-1. GridSearchCV 1. 학습데이터, 테스트 데이터 분리 1-1. train_test_split() 여기서는 iris dataset를 이용해보겠다. load_iris를 통해 받을 수 있고, 딕셔너리 형식이다. from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris from sklearn.tree import DecisionT..
의 차이는 무엇인가? 1. 지도학습: 알고리즘에 주입하는 훈련 데이터에 레이블 이라는 원하는 답이 포함 분류: yes or no를 구분하는 학습. 회귀: feature(ex. 주행거리, 연식, 브랜드 등)를 사용해 중고차 가격과 같은 target(타깃) 수치를 예측하는 것. 1-1. 지도 학습의 알고리즘 k-최근접 이웃(KNN) 선형 회귀(Linear Regression) 로지스틱 회귀(Logistic Regression) 서포트 벡터 머신(SVM) 결정 트리(decision tree) & 랜덤 포레스트(random forest) 신경망(neural network) 2. 비지도 학습: 훈련 데이터에 레이블이 없음! 시스템이 아무런 도움 없이 학습해야 함. 군집, 이상치/특이치 탐지, 시각화&차원축소 2-..