XGBoost 이란?
1. XGBoost란 무엇인가?
XGBoost(Extreme Gradient Boosting)는 2016년 Chen과 Guestrin이 발표한 논문에서 처음 제안된, Gradient Boosting Decision Tree(GBDT) 계열의 모델입니다. XGBoost는 “정확도와 효율성”이라는 두 가지 목표를 극대화하며, 데이터 사이언스 대회와 산업 현장에서 표준으로 자리잡았습니다. https://dacon.io/과 같은 인공지능 대회에서도 자주 사용되는 모델이자 매커니즘 입니다.
2. 이론적 배경
2.1 Gradient Boosting의 기본 원리
Gradient Boosting은 여러 개의 약한 학습기(보통 결정 트리)를 순차적으로 결합하는 앙상블 학습 방법입니다.
각 단계에서 이전 모델이 잘못 예측한 부분(잔차, 즉 오차)을 다음 모델이 집중적으로 학습하여 전체 성능을 높입니다.
즉, 최종 예측값은 각 트리의 예측값을 모두 더한 결과입니다.
목적함수(전체 손실)는 다음과 같이 정의할 수 있습니다.
- 목적함수 = 각 데이터 샘플의 손실 합계 + 트리의 복잡도를 패널티로 더한 값
- 여기서 손실은 예측값과 실제값의 차이이며, 복잡도는 트리의 리프 노드 수와 가중치에 의해 결정됩니다.
XGBoost는 여기에 L1, L2 정규화 항(가중치 감소)을 추가해 과적합을 효과적으로 방지합니다.
2.2 XGBoost의 구조
XGBoost의 주요 이론적 개선점은 다음과 같습니다.
- 정규화(Regularization) 강화
- 트리의 복잡도를 낮추는 L1, L2 규제 항을 도입해 과적합(overfitting) 문제를 해결합니다.
- 분할 기준의 최적화
- 기존 GBDT 방식보다 더 효율적인 Split Finding 방법을 사용하며, 데이터가 많은 경우에도 빠르게 최적 분할점을 찾을 수 있습니다.
- 희소 데이터 처리(Sparsity-aware Split)
- 결측값이나 0이 많은 희소 데이터에도 특화되어, 실무의 대용량 데이터에서도 효율적으로 작동합니다.
- 병렬 처리(Parallelization)
- 멀티스레드 기반의 컬럼 단위 병렬 학습을 통해, 대규모 데이터셋에서 매우 빠른 학습 속도를 보입니다.
- 캐시 최적화와 대용량 데이터 지원
- CPU 캐시를 효율적으로 활용하고, 메모리에 다 올리지 못하는 초대형 데이터셋도 디스크 기반으로 학습할 수 있습니다.
2.3 목적함수와 최적화
XGBoost는 손실 함수를 테일러 전개(Taylor Expansion)라는 수학적 근사 방법으로 2차 도함수까지 확장해,
각 트리 학습 단계마다 최적의 분할을 빠르고 안정적으로 찾을 수 있습니다.
각 리프 노드의 가중치는, 해당 노드에 속한 샘플들의 기울기(Gradient)와 두 번째 도함수(Hessian) 값에 따라 계산되며,
여기에 L2 정규화 항이 포함되어 모델이 불필요하게 복잡해지는 것을 막아줍니다.
3. 실증적 성능과 연구 동향
3.1 성능 비교 및 대규모 실험
XGBoost는 다양한 공개 데이터셋 실험에서 기존 GBDT, Random Forest, scikit-learn 기반 트리 모델에 비해
최대 10배 이상 빠른 학습 속도와 높은 정확도를 기록했습니다.
실제로 2015~2018년 캐글 주요 대회의 약 70% 이상에서 XGBoost가 최종 우승 솔루션의 핵심 모델로 사용된 바 있습니다.
3.2 XGBoost의 한계와 최신 연구
XGBoost는 표 구조(Tabular) 데이터에서는 최고의 성능을 보이지만,
텍스트, 이미지 등 비정형 데이터에서는 딥러닝(Deep Neural Networks)이 더 강력한 성능을 보여주고 있습니다.
최근 연구에서는
- 모델 해석력(Explainability) 강화를 위한 SHAP(특성별 기여도 시각화)
- 자동 하이퍼파라미터 최적화(Optuna 등과 연계)
- 분산 학습 및 GPU 지원
등 실용적인 발전이 계속되고 있습니다.
참고문헌
- Tianqi Chen and Carlos Guestrin, "XGBoost: A Scalable Tree Boosting System", Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016. (arXiv:1603.02754) https://arxiv.org/pdf/1603.02754
- Scott M. Lundberg and Su-In Lee, "A Unified Approach to Interpreting Model Predictions", Advances in Neural Information Processing Systems (NeurIPS), 2017. (arXiv:1705.07874) https://arxiv.org/pdf/1705.07874