목록머신러닝/기타 (3)
데이터로그😎
1. 데이터 인코딩 1-1. 레이블 인코딩 1-2. 원-핫 인코딩 2. 피처 스케일링 2-1. StandardScaler (표준화) 2-2. MinMaxScaler(정규화) 1. 데이터 인코딩 1-1. 레이블 인코딩 언제 사용하는가? 문자열 → 숫자열로 인코딩하기 좋음 각 레이블에 고유의 숫자들을 매길 때 사용 fit items 리스트에 있는 고유한 문자열을 찾아냄. TV=0, 냉장고= 1, 전자레인지=2, 컴터=3, 선풍기=4, 믹서=5로 매팽할 방법을 학습함. transform items 리스트의 값들을 이전에 학습된 방법에 따라 인코딩. tv → 0, 냉장고 → 1, 전자레인지 → 2,... 로 인코딩. from sklearn.preprocessing import LabelEncoder items=..
1. 학습데이터/테스트 데이터 분리 1-1. train_test_split() 2. 교차검증 분할, 평가 2-1. KFold 2-2. StratifiedKFold 2-3. cross_val_score 3. 교차검증 + 최적 하이퍼 파라미터 튜닝 한번에 3-1. GridSearchCV 1. 학습데이터, 테스트 데이터 분리 1-1. train_test_split() 여기서는 iris dataset를 이용해보겠다. load_iris를 통해 받을 수 있고, 딕셔너리 형식이다. from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris from sklearn.tree import DecisionT..
의 차이는 무엇인가? 1. 지도학습: 알고리즘에 주입하는 훈련 데이터에 레이블 이라는 원하는 답이 포함 분류: yes or no를 구분하는 학습. 회귀: feature(ex. 주행거리, 연식, 브랜드 등)를 사용해 중고차 가격과 같은 target(타깃) 수치를 예측하는 것. 1-1. 지도 학습의 알고리즘 k-최근접 이웃(KNN) 선형 회귀(Linear Regression) 로지스틱 회귀(Logistic Regression) 서포트 벡터 머신(SVM) 결정 트리(decision tree) & 랜덤 포레스트(random forest) 신경망(neural network) 2. 비지도 학습: 훈련 데이터에 레이블이 없음! 시스템이 아무런 도움 없이 학습해야 함. 군집, 이상치/특이치 탐지, 시각화&차원축소 2-..