Shumailov et al., “AI models collapse when trained on recursively generated data”, Nature, 2024 리뷰입니다!
https://pmc.ncbi.nlm.nih.gov/articles/PMC11269175/
AI models collapse when trained on recursively generated data - PMC
Main The development of LLMs is very involved and requires large quantities of training data. Yet, although current LLMs2,4–6, including GPT-3, were trained on predominantly human-generated text, this may change. If the training data of most future model
pmc.ncbi.nlm.nih.gov
1. 개요
- 제목: AI models collapse when trained on recursively generated data
- 저널: Nature, 2024년 7월호 (PMCID: PMC11269175)
- 핵심 내용: AI가 생성한 데이터를 반복해서 학습 데이터에 사용하는 경우, 모델이 점차 “자기 자신만의 데이터”에 맞춰져 원래의 다양성과 정보가 손실되는 모델 콜랩스(model collapse) 현상을 실험과 이론으로 규명함.
2. 연구 배경
- 최근 웹에 모델 생성 데이터가 급격히 증가하면서, 모델들이 인간이 아닌 AI의 출력 위주로 학습하는 상황이 늘고 있음
- 이런 현상이 계속되면 모델이 “실제 인간 언어 분포”에서 벗어나고, 점차 엉터리 모델로 변질될 가능성 → 이를 모델 콜랩스라고 명명
3. 실험 설계
- 초기 모델(Model 0)은 사람 데이터로 학습
- 이후 세대별로 모델이 생산한 텍스트만 학습 데이터로 사용해 Model 1 → Model 2… 순환
- 모델 성능은 원본 데이터 분포와의 차이를 KL-발산 및 다른 분포 변화 지표로 평가
- 실험 대상: GPT 계열 기반 OPT‑125m과 분산형 VAE 및 GMM 등 다양한 모델 유형
4. 주요 결과
- 초기에는 성능 저하가 뚜렷하지 않지만 (“early collapse”)
- 후기에는 거의 모든 분포 꼬리 정보 손실 및 편향 증가 ("late collapse")
- 원본 입력 분포에서 드물게 등장했던 희소 사례가 소멸하는 현상 관찰
- 텍스트 다양성과 예측 가능성이 지나치게 단순화됨
5. 이론적 해석
- 학습된 모델의 출력만으로 후속 세대를 만드는 것은 기능 근사 오차, 샘플링 오류, 학습 오류가 복합 누적되어 발생
- 단변량 정규분포 모델에서 조차도 이론적으로 분산의 무작위 걷기(random walk)가 일어나며 분포의 왜곡이 발생함
6. 결론
- 웹 크롤링 기반 학습 데이터에 AI 출력이 과도하게 포함되면, AI 모델 자체의 “현실 왜곡”을 초래할 수 있음
- 인간 생성 데이터(진짜 텍스트)와 AI 생성 데이터를 함께 유지하며 후세 모델 학습에 혼합하는 전략이 중요함
- 수집된 진짜 사용자 상호작용 데이터의 가치가 더욱 커질 것임
7. 이외
관련 연구에서 제시된 참고 수치
이 논문 외에 일부 후속 연구에서는 다음과 같은 수치를 언급한 바 있습니다!
- OpenAI internal note (비공식): Web corpus에서 20~30% 이상이 synthetic이면 distributional drift가 명확히 나타날 수 있다는 시뮬레이션 결과 있음
- Anthropic (2023) whitepaper: 10% 이상이 synthetic이면 rare-token frequency 감소가 눈에 띄게 나타난다고 보고됨

'Research & Paper' 카테고리의 다른 글
| FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (0) | 2025.09.08 |
|---|---|
| Mamba: Linear-Time Sequence Modeling with Selective State Spaces (0) | 2025.09.08 |
| "Robust Speech Recognition via Large-Scale Weak Supervision" (arXiv:2212.04356) (2) | 2025.07.26 |
| Multi-Head Attention 분석 (0) | 2025.06.14 |
| Transformer 아키텍처 분석 (2) | 2025.06.14 |