부스팅 앙상블 (Boosting Ensemble) 2-1: Gradient Boosting for Regression

AI study

부스팅 앙상블 (Boosting Ensemble) 2-1: Gradient Boosting for Regression

풍요 평화 만땅 연구원 2022. 8. 21. 18:43

전체적인 내용은 StatQuest라는 유투버의 Gradient Boost Part 1: Regression Main Ideas과 Gradient Boost Part 2: Regression Details를 참고했습니다. Gradient Boosting에 대해 가장 정리가 잘 된 설명자료입니다 (영어이지만 시각자료도 많고, 화면에 자막도 있어서 알아듣기 쉽습니다)

AdaBoost VS Gradient Boosting

AdaBoost와 Gradient Boosting 두 모델의 공통점은 부스팅 앙상블 기반의 알고리즘이라는 것입니다. 부스팅 앙상블의 대표적인 특징은 모델 학습이 sequential합니다. 즉, 먼저 생성된 모델의 예측값이 다음 모델 생성에 영향을 줍니다.
하지만 이 외에 두 모델은 상당한 차이점이 있습니다.

AdaBoost에 비교되는 Gradient Boosting의 대표적인 차이점은 세 가지 정도로 정리할 수 있습니다.

Weak learner: Stumps VS A leaf & Restricted trees
Predicted value: Output VS Pseudo-residual
Model weight: Different model weights (amount of say) VS Equal model weight (learning rate)

1. Weak learner

앙상블 모델의 기본이 되는 weak lerner가 다름

-AdaBoost에서는 weak learner로 stump (한 개 노드와 두 개의 가지를 갖는 매우 작은 decision tree) 를 사용

- Gradient Boosting에서는 restricted tree를 사용(restricted tree란, maximum number of leaves로 성장에 제한을 둔 decision tree)

- Gradient Boosting의 첫 번째 weak learner는 모든 샘플의 output 평균을 값으로 갖는 하나의 leaf

2. Predicted value

각 모델이 예측하는 정보가 다름

[AdaBoost]

- 각 stump들은 모두 실제 output 값을 예측하는 모델

- 따라서 이 값을 평균내거나 가중치를 곱한 평균을 통해, 실제 값에 가까운 예측값을 만들어냄

[Gradient Boosting]

- Gradient Boosting에서 각 restricted tree들이 예측하는 값은 실제 output과 이전 모델의 예측치 사이의 오차 (pseudo-residual)

- 최종 예측 시에는 각 모델의 오차를 scaling 후, 합하는 과정을 통해 실제 값에 가까운 예측값을 만들어냄

Pseudo-residual에서
Pseudo
라는 단어가 붙은 이유는 linear regression 에서의 residaul과 구별하기 위해서입니다.
Gradient Boosting에서 어떤 Loss function을 사용하느냐에 따라 residual과 동일할 수도, 비슷할 수도 있기에 이런 이름을 붙였다고 함