일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 역설구조
- 비즈니스모델
- sklearn
- 올라
- 바로팜
- 데이터분석
- CAC
- fundbox
- mysql설치 #mysql #mysqluser #mysqlworkbench
- BM분석
- 리텐션
- allra
- 셀프스토리지
- 그로스해킹
- 인게이지먼트
- 전환율
- pmf
- 팔방이익구조
- 머신러닝
- 활성화
- retention
- 퍼널분석
- 한장으로끝내는비즈니스모델100
- model_selection
- activation
- aarrr
- 코호트
- 핀테크
- 선정산서비스
- 서말리포켓
- Today
- Total
목록#4. 기타 공부/#4.2. 머신러닝 (22)
데이터로그😎

차원축소의 대표적인 알고리즘1. PCA2. LDA3. SVD4. NMF 고차원 데이터의 문제점수백 개 이상의 피처로 구성된 데이터 세트의 경우, 예측 신뢰도가 떨어진다.피처가 많으면 개별 피처 간에 상관관계가 높을 가능성이 큼 → 다중 공선성 문제 발생 → 모델 예측 성능 저하따라서 피처 축소 필요 (차원 축소) 차원축소란?피처 선택, 피처 추출로 나뉨피처 선택(feature selection): 주요 피처만 선택하고 불필요 피처 제거피처 추출(feature extraction): 잠재적 요소 추출. ex) 수능성적, 모의고사 성적, 내신성적 => 학업성취도로 요약말그대로 데이터의 차원을 줄이는 것고차원 데이터를 다룰 때 차원의 저주로 인해 모델링이 어려워지고 성능이 저하되는 문제 발생.이를 해결하기 위..

캐글 데이터: https://www.kaggle.com/competitions/bike-sharing-demand/data Bike Sharing Demand | Kaggle www.kaggle.com Prerequisite import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline import warnings warnings.filterwarnings('ignore', category=RuntimeWarning) from sklearn.metrics import mean_squared_error, mean_absolute_error from sklearn.mode..

import pandas as pd import numpy as np import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore') %matplotlib inline card_df = pd.read_csv('creditcard.csv') card_df 데이터 전처리 & 스케일러 함수 from sklearn.preprocessing import StandardScaler def get_preprocessed_df(df=None): df_copy = df.copy() scaler = StandardScaler() amount_n = scaler.fit_transform(df_copy['Amount'].values.reshap..

선형 - 비선형 회귀의 구분회귀계수가 선형인지 비선형인지에 따름선형: 선형회귀비선형: 딥러닝, 트리...독립변수의 선형, 비선형 여부와는 무관규제 적용X규제 적용O일반 선형회귀: RSS(잔차) 최소화하는 회귀계수 + 규제 적용X단순 선형회귀 (하나 독립변수-하나 종속변수: 선형관계)다항 회귀(여러 독립변수-하나 종속변수: 비선형 관계)릿지(Ridge): 선형회귀+L2 규제(회귀계수 값 작게 만드는 규제모델)라쏘(Lasso): 선형회귀+L1 규제(예측 영향력이 작은 피처의 회귀계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 함엘라스틱 넷(Elastic Net) = 릿지+라쏘. 피처가 많은 데이터 세트에 적용. L1규제로 피처 개수를 줄임과 동시에 L2규제로 계수 값 크기 조정파라미터속성fit_i..
회귀란?변수들 간의 상관관계를 찾는 것여러개의 독립변수 & 한개의 종속변수 간의 상관관계를 모델링하는 기법ex) 아파트 가격 = W1*방개수 + W2*방크기 + W3*학군...(W = 회귀계수/regression coefficient)독립변수(feature) = 방개수, 방크기, 학군종속변수 = 아파트 가격W = 회귀계수주어진 피처와 결정 값(종속변수) 를 기반으로 학습을 통해 최적의 회귀 계수를 찾아내는 것.회귀는 언제 사용하는가? 예측하려는 값이 연속일 때 사용예측 결과가 숫자일 때 사용근속연수에 따른 임금.키에 따른 몸무게사용 기간에 따른 스마트폰 가격 회귀의 종류독립변수 개수회귀 계수의 결합1개 (단일 회귀)선형 (선형회귀)여러 개 (다중 회귀)비선형 (비선형 회귀)* 선형회귀 + 비선형 회귀 →..
⭐⭐⭐⭐더 공부해서 수정 부스팅(Boosting)여러 분류기가 순차적으로 학습앞서 학습한 분류기가 예측이 틀린 데이터가 있다면, 그 데이터에 대해 올바르게 예측할 수 있도록 다음 분류기에 가중치를 부여하며 학습계속해서 분류기에 가중치를 부스팅하면서 학습 진행여러개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치를 부여하며 오류를 개선해나가면서 학습하는 방법가중치 업데이트 시 경사 하강법(Gradient Descent) 사용최종적으로 결과들을 결합하여 예측GBM(Gradient Boost), XGBoost(eXtra Gradient Boost), Light GBM(Light Gradient Boost)특징GBMXGBoostLightGBM정의그래디언트 부스팅 ..