앙상블 종류 |
설명 |
Voting (보팅) |
- 서로 다른 알고리즘을 가진 분류기 결합(Linear, KNN,SVM…)
- 하나의 dataset
- 하드보팅(다수결), 소프트 보팅(확률)
|
Bagging (배깅) |
- 모두 같은 알고리즘
- 여러 dataset (데이터 중첩 허용)
- ex) 랜덤 포레스트: 랜덤 포레스트는 여러 개의 결정 트리를 생성하고 이들을 결합하여 예측을 수행하는 앙상블 기법. 각 결정 트리는 부트스트랩 샘플(복원 추출)을 기반으로 학습하고, 무작위로 선택된 특성 집합을 사용하여 분할. 이로 인해 과적합을 줄이고 모델의 안정성을 높임.
|
Boosting (부스팅) |
- 여러 분류기가 순차적으로 학습
- 앞서 학습한 분류기가 예측이 틀린 데이터가 있다면, 그 데이터에 대해 올바르게 예측할 수 있도록 다음 분류기에 가중치를 부여하며 학습
- 계속해서 분류기에 가중치를 부스팅하면서 학습 진행
- 부스팅은 약한 학습기(weak learner)를 결합하여 강한 학습기(strong learner)를 만드는 기법
- ex) XGBoost(eXtra Gradient Boost), Light GBM(Light Gradient Boost)
|
Stacking (스태킹) |
- 여러가지 다른 모델의 예측 결괏값을 다시 학습 데이터로 만들어서 다른 모델(메타모델)로 재학습시켜 결과를 예측하는 방법
|