일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 바로팜
- pmf
- 핀테크
- 전환율
- BM분석
- 선정산서비스
- model_selection
- 셀프스토리지
- CAC
- mysql설치 #mysql #mysqluser #mysqlworkbench
- sklearn
- fundbox
- 팔방이익구조
- 서말리포켓
- aarrr
- 그로스해킹
- allra
- 데이터분석
- activation
- 비즈니스모델
- 역설구조
- 리텐션
- 머신러닝
- 한장으로끝내는비즈니스모델100
- 인게이지먼트
- 코호트
- 활성화
- retention
- 올라
- 퍼널분석
- Today
- Total
목록분류 전체보기 (89)
데이터로그😎
⭐⭐⭐⭐더 공부해서 수정 부스팅(Boosting)여러 분류기가 순차적으로 학습앞서 학습한 분류기가 예측이 틀린 데이터가 있다면, 그 데이터에 대해 올바르게 예측할 수 있도록 다음 분류기에 가중치를 부여하며 학습계속해서 분류기에 가중치를 부스팅하면서 학습 진행여러개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치를 부여하며 오류를 개선해나가면서 학습하는 방법가중치 업데이트 시 경사 하강법(Gradient Descent) 사용최종적으로 결과들을 결합하여 예측GBM(Gradient Boost), XGBoost(eXtra Gradient Boost), Light GBM(Light Gradient Boost)특징GBMXGBoostLightGBM정의그래디언트 부스팅 ..

배깅(Bagging)모두 같은 알고리즘여러 dataset (데이터 중첩 허용)ex) 랜덤 포레스트 파라미터n_estimators생성할 트리의 개수이 값이 높을수록 모델의 성능이 좋아질 수 있지만, 시간과 메모리 사용량이 증가할 수 있음.max_depth트리의 최대 깊이이 값을 높이면 복잡한 모델을 만들 수 있지만, 과적합(overfitting) 문제가 발생할 수 있음.min_samples_split노드를 분할하기 위한 최소한의 샘플 데이터 수이 값을 낮추면 노드가 분할되는 빈도가 높아져 모델의 복잡도가 증가할 수 있음min_samples_leaf리프 노드가 되기 위한 최소한의 샘플 데이터 수이 값을 높이면 모델이 학습하는 데 사용되는 데이터 수가 줄어들어 일반화 성능이 향상될 수 있음max_feature..
앙상블의 한 종류인 보팅에 대해 글을 쓸 것. 앙상블의 종류에 대해서는 이전에 발행한 글을 참고.2023.09.04 - [머신러닝/지도 학습_분류] - 4. Ensemble (앙상블) 4. Ensemble (앙상블)여러개 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법 Ensemble의 목표: 다양한 분류기의 예측결과를 결합함으로써 단일 분류기보다 신뢰성이 높은fine-1004.tistory.com 보팅(Voting)서로 다른 알고리즘을 가진 분류기 결합(Linear, KNN,SVM…)하나의 dataset하드보팅(다수결), 소프트 보팅(확률의 평균)하드보팅: 다수결. 다수의 분류기가 결정한 예측값을 최종 보팅 결과값으로 선정소프트보팅: 분류기들이 레이..
여러개 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법Ensemble의 목표: 다양한 분류기의 예측결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측값을 얻는 것앙상블의 종류앙상블 종류설명Voting (보팅)서로 다른 알고리즘을 가진 분류기 결합(Linear, KNN,SVM…)하나의 dataset하드보팅(다수결), 소프트 보팅(확률)Bagging (배깅)모두 같은 알고리즘여러 dataset (데이터 중첩 허용)ex) 랜덤 포레스트: 랜덤 포레스트는 여러 개의 결정 트리를 생성하고 이들을 결합하여 예측을 수행하는 앙상블 기법. 각 결정 트리는 부트스트랩 샘플(복원 추출)을 기반으로 학습하고, 무작위로 선택된 특성 집합을 사용하여 분할. 이로 인해 과..
선형회귀 방식을 분류에 적용한 알고리즘 → 분류에 사용됨Logistic Regression은 선형 회귀와 유사한데, 출력값이 0과 1 사이의 값으로 제한되도록 변형된 모델입니다. 이를 위해 입력 데이터의 **가중합(가중치와 특성값의 곱의 합)**을 시그모이드 함수(sigmoid function)에 적용합니다. 시그모이드 함수는 S자 형태의 곡선으로, 입력값이 큰 음수일 때 0에 가까운 값, 입력값이 큰 양수일 때 1에 가까운 값, 입력값이 0일 때 0.5의 값을 출력합니다.이렇게 입력 데이터의 가중합을 시그모이드 함수에 적용하면, 모델의 출력값은 0과 1 사이의 값으로 제한됩니다. 이 값은 해당 샘플이 양성 클래스에 속할 확률로 해석할 수 있습니다. 예를 들어, 출력값이 0.7일 경우 해당 샘플이 양성 ..

회귀, 분류에 모두 사용 가능‘정보 균일도’ 라는 룰을 기반으로 하고 있어 알고리즘이 직관적임.정보균일도 측정 지표정의정보이득지수1-엔트로피 지수(혼잡도, 서로 다른값많으면 엔트로피 높음)결정트리는 정보이득지수가 높은 속성을 기준으로 분할정보이득지수↑ 데이터 균일도 ↑지니계수불평등지수0 가장 평등 → 1 불평등결정트리는 지니계수가 낮은 속성을 기준으로 분할지니계수↓ 데이터 균일도↑ Decision Tree Classification의 파라미터min_samples_split노드를 분할하기 위해 필요한 최소한의 샘플 수min_samples_split=2로 설정하면 노드를 분할하려면 적어도 2개의 샘플이 있어야 함 값을 늘리면 트리의 깊이가 줄어들고 모델이 더 간단해지며, 과적합을 줄일 수 있음 작은 값은 더..