https://arxiv.org/abs/2508.10104
DINOv3
Self-supervised learning holds the promise of eliminating the need for manual data annotation, enabling models to scale effortlessly to massive datasets and larger architectures. By not being tailored to specific tasks or domains, this training paradigm ha
arxiv.org
1. 개요
DINOv3는 자기 지도 학습(self-supervised learning) 방식으로 훈련된 차세대 시각 기반 모델입니다.
- 데이터와 모델 스케일 확대를 전략적으로 활용했고,
- Gram anchoring이라는 기법으로 dense feature map의 품질 저하 문제를 해결했습니다.
- 마지막으로, 해상도, 모델 크기, 텍스트 정렬성 측면에서도 유연성을 확보하는 사후 전략(post-hoc strategy)을 적용했습니다.
그 결과, 다양한 비전 작업에서 튜닝 없이도 최첨단 성능을 달성하는 범용 Foundation 모델이 탄생했습니다.
2. 연구 배경
- 레이블이 없는 대규모 데이터를 효과적으로 활용하는 자기 지도 학습은, 데이터를 수작업으로 주석 달 필요 없이 다양한 이미지에서 시각 표현을 학습할 수 있는 장점을 갖습니다.
- 하지만, dense feature map이 고해상도화나 장기간 학습에서 품질이 상실되는 문제가 존재했습니다. DINOv2까지 이어진 한계점이었습니다.
- DINOv3는 이러한 단점을 극복하면서, 뛰어난 전역(global) 및 지역(local) 표현력을 모두 갖춘 모델을 목표로 설계되었습니다.
3. 실험 설계
- 데이터 및 아키텍처
- 대규모 웹 기반 이미지 데이터(LVD-1689M)와 ImageNet-1K를 조합한 데이터셋 구성
- 7B(70억) 파라미터급 모델 훈련
- 이후 비트 사이즈 모델(ViT-S, ViT-B, ViT-L, ConvNeXt 등)로 지식 증류(distillation)
- Gram anchoring
- Dense feature degradation을 방지하기 위한 정규화 기법
- 고해상도에서도 feature map의 표현력이 유지되도록 설계
4. 주요 결과
- Dense feature 지도 시각화: 고해상도에서도 cosine 유사도 기반 유사 패치 맵이 깨끗하게 유지됨
- 벤치마크 성능:
- COCO 객체 탐지 (mAP 66.1)
- ADE20K 세분화 (mIoU 63.0)
- 이외 depth estimation, 3D 매칭, 분할, 분류 등 다양한 작업에서 SOTA 또는 이를 상회하는 성능

위 그림은 DINOv3의 성능 및 표현력을 종합적으로 보여준다.
- (a) ImageNet-1K 선형 분류 정확도 추이
- 2015년부터 2025년까지 ImageNet-1K에서의 성능 변화를 나타낸 그래프.
- SL (Supervised Learning), WSL (Weakly-supervised Learning), SSL (Self-supervised Learning)을 비교.
- SSL은 비교적 늦게 등장했지만, 최근 몇 년간 급격히 발전하여 ImageNet 정확도에서 SL, WSL과 유사한 성숙 단계(plateau)에 도달했음을 확인할 수 있다.
- (b) Dense task에서의 상대 성능 비교
- Depth Estimation, Tracking, Segmentation 등 고밀도 표현(dense feature)을 요구하는 작업에서의 성능을 비교.
- DINOv3는 WSL 기반 최신 모델 대비 33%, 34%, 22% 향상된 성능을 보이며, dense representation 품질에서 확실한 우위를 보인다.
- (c) 고해상도 자연 이미지 PCA 시각화
- 고해상도 자연 이미지에서 추출한 feature를 PCA로 투영해 시각화한 결과.
- 동물(고양이)의 형태가 색상으로 뚜렷이 분리되며, 객체 단위의 표현력이 명확하게 드러남을 보여준다.
- (d) 고해상도 항공 이미지 PCA 시각화
- 항공 사진에서의 feature PCA 시각화 결과.
- 도로, 농지, 주거지 등 세부 패턴이 서로 다른 색으로 잘 구분되며, 공간적 구조를 효과적으로 학습했음을 입증한다.

위 그림은 입력 이미지에 대해 여러 모델이 추출한 dense feature map을 시각화한 결과를 보여준다.
- 첫 번째 열(Input): 원본 입력 이미지 (공룡 화석, 자전거, 정원, 동물 등).
- 두 번째 열(SigLIP 2): SigLIP 2 모델이 추출한 feature map. 전반적으로 노이즈가 심하고, 객체 경계가 불명확하게 드러난다.
- 세 번째 열(PE Spatial): Position Encoding 기반 Spatial 모델의 feature map. 일부 객체의 형상이 포착되지만 여전히 세부 구분은 약하다.
- 네 번째 열(DINOv2 w/reg): 이전 세대 모델인 DINOv2를 정규화와 함께 적용한 결과. 객체의 대략적 형태는 잡히지만, 복잡한 장면에서는 특징이 퍼져 보인다.
- 다섯 번째 열(DINOv3): 본 논문에서 제안한 DINOv3의 feature map.
- 자전거, 동물, 나무 같은 객체 단위 구분이 명확하게 드러나며, 색상 클러스터가 안정적이다.
- 복잡한 장면에서도 불필요한 노이즈가 적고, 객체 간 경계가 뚜렷하다.
- 이는 DINOv3가 dense representation 학습에서 우수한 성능을 보여줌을 시각적으로 입증한다.
5. 이론적 해석
- 스케일링의 안정성:
- 꾸준한 학습 스케줄과 구조적 설계를 통해 7B 모델이 무너짐 없이 안정적으로 학습됨.
- Gram anchoring:
- Dense feature가 훈련 과정에서 붕괴되는 문제를 완화하며, 고해상도 환경에서도 표현력 유지.
- 지식 증류 (Distillation):
- 큰 모델의 성능을 유지하면서 작은 모델에서도 유사한 표현력을 내도록 하는 효율적인 분산 전략.
- 큰 모델의 성능을 유지하면서 작은 모델에서도 유사한 표현력을 내도록 하는 효율적인 분산 전략.
6. 결론
DINOv3는 자기 지도 학습의 확장 가능성(scalability)과 고품질 dense 표현력을 동시에 달성한 모델입니다.
튜닝 없이 다양한 작업에 활용할 수 있는 범용 표현 학습 모델을 제시하며, 비전 연구의 새 기준을 제시했습니다.
7. 이외 (확장 가능성)
- 실제 응용 분야:
- 지구 관측: 위성 이미지 분석(식생, 피복 등), 원격 탐사
- 일반 비전 응용: 객체 탐지, 분할, 깊이 추정, 3D 매칭, 영상 분류 등
- 향후 발전 방향:
- 더 다양한 도메인 특화 모델 (예: 의료, 산업) 적용
- 사후 처리 전략 강화로 추론 속도 및 유연성 증가