일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 팔방이익구조
- 셀프스토리지
- 바로팜
- fundbox
- 역설구조
- 핀테크
- CAC
- 머신러닝
- 한장으로끝내는비즈니스모델100
- 서말리포켓
- aarrr
- BM분석
- 코호트
- 리텐션
- pmf
- allra
- sklearn
- 비즈니스모델
- retention
- 그로스해킹
- 활성화
- 올라
- 퍼널분석
- 인게이지먼트
- 전환율
- 선정산서비스
- activation
- model_selection
- 데이터분석
- mysql설치 #mysql #mysqluser #mysqlworkbench
- Today
- Total
목록분류 전체보기 (89)
데이터로그😎

LDA vs PCA PCALDA특징주성분 분석 = 주가 되는 성분을 분석한다.PCA는 데이터의 고차원 공간에서 *가장 많은 분산(변동성)을 가지는 방향*을 찾아서 이를 기반으로 데이터를 저차원 공간으로 변환한다.PCA에서 '가장 많은 분산을 가지는'은 주어진 데이터셋에서 가장 많은 정보를 가지는 축(axis)을 찾는 것을 의미PCA와 유사하지만 중요한 차이점은 LDA에서는 지도학습의 분류(classification)에 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소함.입력 데이터의 결정 값 클래스를 최대한으로 분리할 수 있는 축을 찾는다.클래스 간 분산과 클래스 내부 분산의 비율을 최대화하는 방식으로 차원을 축소.클래스 간 분산은 최대한 크게 가져가고, 클래스 내부 분..

차원축소의 대표적인 알고리즘1. PCA2. LDA3. SVD4. NMF 고차원 데이터의 문제점수백 개 이상의 피처로 구성된 데이터 세트의 경우, 예측 신뢰도가 떨어진다.피처가 많으면 개별 피처 간에 상관관계가 높을 가능성이 큼 → 다중 공선성 문제 발생 → 모델 예측 성능 저하따라서 피처 축소 필요 (차원 축소) 차원축소란?피처 선택, 피처 추출로 나뉨피처 선택(feature selection): 주요 피처만 선택하고 불필요 피처 제거피처 추출(feature extraction): 잠재적 요소 추출. ex) 수능성적, 모의고사 성적, 내신성적 => 학업성취도로 요약말그대로 데이터의 차원을 줄이는 것고차원 데이터를 다룰 때 차원의 저주로 인해 모델링이 어려워지고 성능이 저하되는 문제 발생.이를 해결하기 위..

캐글 데이터: https://www.kaggle.com/competitions/bike-sharing-demand/data Bike Sharing Demand | Kaggle www.kaggle.com Prerequisite import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline import warnings warnings.filterwarnings('ignore', category=RuntimeWarning) from sklearn.metrics import mean_squared_error, mean_absolute_error from sklearn.mode..

import pandas as pd import numpy as np import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore') %matplotlib inline card_df = pd.read_csv('creditcard.csv') card_df 데이터 전처리 & 스케일러 함수 from sklearn.preprocessing import StandardScaler def get_preprocessed_df(df=None): df_copy = df.copy() scaler = StandardScaler() amount_n = scaler.fit_transform(df_copy['Amount'].values.reshap..

선형 - 비선형 회귀의 구분회귀계수가 선형인지 비선형인지에 따름선형: 선형회귀비선형: 딥러닝, 트리...독립변수의 선형, 비선형 여부와는 무관규제 적용X규제 적용O일반 선형회귀: RSS(잔차) 최소화하는 회귀계수 + 규제 적용X단순 선형회귀 (하나 독립변수-하나 종속변수: 선형관계)다항 회귀(여러 독립변수-하나 종속변수: 비선형 관계)릿지(Ridge): 선형회귀+L2 규제(회귀계수 값 작게 만드는 규제모델)라쏘(Lasso): 선형회귀+L1 규제(예측 영향력이 작은 피처의 회귀계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 함엘라스틱 넷(Elastic Net) = 릿지+라쏘. 피처가 많은 데이터 세트에 적용. L1규제로 피처 개수를 줄임과 동시에 L2규제로 계수 값 크기 조정파라미터속성fit_i..
회귀란?변수들 간의 상관관계를 찾는 것여러개의 독립변수 & 한개의 종속변수 간의 상관관계를 모델링하는 기법ex) 아파트 가격 = W1*방개수 + W2*방크기 + W3*학군...(W = 회귀계수/regression coefficient)독립변수(feature) = 방개수, 방크기, 학군종속변수 = 아파트 가격W = 회귀계수주어진 피처와 결정 값(종속변수) 를 기반으로 학습을 통해 최적의 회귀 계수를 찾아내는 것.회귀는 언제 사용하는가? 예측하려는 값이 연속일 때 사용예측 결과가 숫자일 때 사용근속연수에 따른 임금.키에 따른 몸무게사용 기간에 따른 스마트폰 가격 회귀의 종류독립변수 개수회귀 계수의 결합1개 (단일 회귀)선형 (선형회귀)여러 개 (다중 회귀)비선형 (비선형 회귀)* 선형회귀 + 비선형 회귀 →..