데이터로그😎

4. Ensemble (앙상블) 본문

머신러닝/지도 학습

4. Ensemble (앙상블)

지연v'_'v 2023. 9. 4. 14:35
  • 여러개 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법
  • Ensemble의 목표: 다양한 분류기의 예측결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측값을 얻는 것

앙상블의 종류

앙상블 종류 설명
Voting (보팅)
  • 서로 다른 알고리즘을 가진 분류기 결합(Linear, KNN,SVM…)
  • 하나의 dataset
  • 하드보팅(다수결), 소프트 보팅(확률)
Bagging (배깅)
  • 모두 같은 알고리즘
  • 여러 dataset (데이터 중첩 허용)
  • ex) 랜덤 포레스트: 랜덤 포레스트는 여러 개의 결정 트리를 생성하고 이들을 결합하여 예측을 수행하는 앙상블 기법. 각 결정 트리는 부트스트랩 샘플(복원 추출)을 기반으로 학습하고, 무작위로 선택된 특성 집합을 사용하여 분할. 이로 인해 과적합을 줄이고 모델의 안정성을 높임.
Boosting (부스팅)
  • 여러 분류기가 순차적으로 학습
  • 앞서 학습한 분류기가 예측이 틀린 데이터가 있다면, 그 데이터에 대해 올바르게 예측할 수 있도록 다음 분류기에 가중치를 부여하며 학습
  • 계속해서 분류기에 가중치를 부스팅하면서 학습 진행
  • 부스팅은 약한 학습기(weak learner)를 결합하여 강한 학습기(strong learner)를 만드는 기법
  • ex) XGBoost(eXtra Gradient Boost), Light GBM(Light Gradient Boost)
Stacking (스태킹)
  • 여러가지 다른 모델의 예측 결괏값을 다시 학습 데이터로 만들어서 다른 모델(메타모델)로 재학습시켜 결과를 예측하는 방법

 

앙상블의 회귀, 분류 알고리즘

알고리즘 회귀 분류
Decision Tree DecisionTreeRegressor DecisionTreeClassifier
Gradient Boosting GradientBoostingRegressor GradientBoostingClassifier
XGBoost XGBRegressor XGBClassifier
LightGBM LGBMRegressor LGBMClassifier

 

'머신러닝 > 지도 학습' 카테고리의 다른 글

4-2. Bagging (배깅)  (0) 2023.09.04
4-1. Voting  (0) 2023.09.04
3. Logistic Regression  (0) 2023.09.04
2. Decision Tree  (1) 2023.09.04
0. 분류(Classification)  (0) 2023.09.04