'#4. 기타 공부' 카테고리의 글 목록 (9 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록#4. 기타 공부 (55)

데이터로그😎

[지도학습] 3. Logistic Regression

선형회귀 방식을 분류에 적용한 알고리즘 → 분류에 사용됨Logistic Regression은 선형 회귀와 유사한데, 출력값이 0과 1 사이의 값으로 제한되도록 변형된 모델입니다. 이를 위해 입력 데이터의 **가중합(가중치와 특성값의 곱의 합)**을 시그모이드 함수(sigmoid function)에 적용합니다. 시그모이드 함수는 S자 형태의 곡선으로, 입력값이 큰 음수일 때 0에 가까운 값, 입력값이 큰 양수일 때 1에 가까운 값, 입력값이 0일 때 0.5의 값을 출력합니다.이렇게 입력 데이터의 가중합을 시그모이드 함수에 적용하면, 모델의 출력값은 0과 1 사이의 값으로 제한됩니다. 이 값은 해당 샘플이 양성 클래스에 속할 확률로 해석할 수 있습니다. 예를 들어, 출력값이 0.7일 경우 해당 샘플이 양성 ..

#4. 기타 공부/#4.2. 머신러닝 2023. 9. 4. 14:19

[지도학습] 2. Decision Tree

회귀, 분류에 모두 사용 가능‘정보 균일도’ 라는 룰을 기반으로 하고 있어 알고리즘이 직관적임.정보균일도 측정 지표정의정보이득지수1-엔트로피 지수(혼잡도, 서로 다른값많으면 엔트로피 높음)결정트리는 정보이득지수가 높은 속성을 기준으로 분할정보이득지수↑ 데이터 균일도 ↑지니계수불평등지수0 가장 평등 → 1 불평등결정트리는 지니계수가 낮은 속성을 기준으로 분할지니계수↓ 데이터 균일도↑ Decision Tree Classification의 파라미터min_samples_split노드를 분할하기 위해 필요한 최소한의 샘플 수min_samples_split=2로 설정하면 노드를 분할하려면 적어도 2개의 샘플이 있어야 함 값을 늘리면 트리의 깊이가 줄어들고 모델이 더 간단해지며, 과적합을 줄일 수 있음 작은 값은 더..

#4. 기타 공부/#4.2. 머신러닝 2023. 9. 4. 13:53

[지도학습] 0. 분류(Classification)

분류는 언제 사용하는가: 예측 결과가 숫자가 아닐때스팸메일 필터링(스팸 yes or no)시험 합격 여부(합격 or 불합격)재활용품 분리수거 품목(캔, 스티로폼…)암 여부( 악성 or 종양 )분류에 사용되는 머신러닝 알고리즘Naive-Bayes 나이브베이즈Logistic Regression: 독립변수-종속변수의 선형관계성에 기반Decision Tree: 데이터 균일도에 따른 규칙 기반Support Vector machineNearest NeighborNeural NetworkEnsemble: 서로 다른 머신러닝 알고리즘 결합

#4. 기타 공부/#4.2. 머신러닝 2023. 9. 4. 10:25

[지도학습] 1. 분류의 평가지표

1. 정확도(accurcay)2. 오차행렬(confusion matrix)3. 정밀도(precision)4. 재현율(recall)5. F1 score6. ROC AUC0. 데이터 준비암 데이터 받아오기from sklearn.datasets import load_breast_cancerimport pandas as pdimport numpy as npcancer = load_breast_cancer()data = cancer.datatarget = cancer.targetfeature_names = cancer.feature_namesdf = pd.DataFrame(data= data, columns = feature_names)df['target'] = targetdf target 변경#cancer.ta..

#4. 기타 공부/#4.2. 머신러닝 2023. 9. 4. 10:23

데이터 전처리

1. 데이터 인코딩 1-1. 레이블 인코딩 1-2. 원-핫 인코딩 2. 피처 스케일링 2-1. StandardScaler (표준화) 2-2. MinMaxScaler(정규화) 1. 데이터 인코딩 1-1. 레이블 인코딩 언제 사용하는가? 문자열 → 숫자열로 인코딩하기 좋음 각 레이블에 고유의 숫자들을 매길 때 사용 fit items 리스트에 있는 고유한 문자열을 찾아냄. TV=0, 냉장고= 1, 전자레인지=2, 컴터=3, 선풍기=4, 믹서=5로 매팽할 방법을 학습함. transform items 리스트의 값들을 이전에 학습된 방법에 따라 인코딩. tv → 0, 냉장고 → 1, 전자레인지 → 2,... 로 인코딩. from sklearn.preprocessing import LabelEncoder items=..

#4. 기타 공부/#4.2. 머신러닝 2023. 9. 3. 17:41

model_selection 모듈

1. 학습데이터/테스트 데이터 분리 1-1. train_test_split() 2. 교차검증 분할, 평가 2-1. KFold 2-2. StratifiedKFold 2-3. cross_val_score 3. 교차검증 + 최적 하이퍼 파라미터 튜닝 한번에 3-1. GridSearchCV 1. 학습데이터, 테스트 데이터 분리 1-1. train_test_split() 여기서는 iris dataset를 이용해보겠다. load_iris를 통해 받을 수 있고, 딕셔너리 형식이다. from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris from sklearn.tree import DecisionT..

#4. 기타 공부/#4.2. 머신러닝 2023. 9. 3. 15:45

이전 Prev 1 ··· 6 7 8 9 10 Next 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터로그😎

목록#4. 기타 공부 (55)

데이터로그😎

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역