머신러닝 스태킹 앙상블(stacking ensemble)이란? _ CV(Kfold)

2022. 7. 16. 17:51인공지능,딥러닝,머신러닝 기초

- 기본적인 스태킹 앙상블보다 CV기반 stacking ensemble 을 많이 사용

- Kfold, Stratified Kfold 의 스태킹 앙상블이 있음

 

스태킹 앙상블(stacking ensemble)이론

cv 기반의 스태킹은 각 모델들이 교차 검증(KFold등)으로 최종 모델을 위한 학습용 데이터 생성함

또한, 예측을 위한 테스트용 데이터도 생성하여 이를 기반으로 최종 모델이 학습을 진행하게 됨

 

- 순서

1. 데이터를 Fold로 나눔

2.각 모델 별로 Fold로 나누어진 데이터를 기반으로 훈련을 진행(X_train, y_train) 사용

    1) 이때 각 Fold마다 뽑아진 훈련 데이터로 모델을 훈련하고 검증 데이터를 활용해 예측후 값을 저장

    2) 마찬가지로 각 Fold마다 나온 model을 기반으로 원본 X_test데이터를 훈련하여 저장(이것은 추후 Avarage됨)

3. 2까지 진행해서 나온 각 모델별 예측 데이터(2-1)을 모두 stacking 하여 최종 모델의 훈련 데이터로 사용

    1) label은 원본 y_train값으로 진행

4. 2-2에서 나온 데이터로 예측 수행하여 pred 값을 뽑아냄

5. 4에서 나온 pred와 y_test값을 비교해서 최종 모델 평가

https://lsjsj92.tistory.com/559?category=853217