https://arxiv.org/abs/2505.05077
ReverbMiipher: Generative Speech Restoration meets Reverberation Characteristics Controllability
Reverberation encodes spatial information regarding the acoustic source environment, yet traditional Speech Restoration (SR) usually completely removes reverberation. We propose ReverbMiipher, an SR model extending parametric resynthesis framework, designe
arxiv.org
1. 개요
음성 복원(Speech Restoration, SR)은 잡음이 섞인 음성을 깨끗하게 되살리는 기술이다. 그러나 대부분의 기존 모델은 잔향(reverberation)까지 완전히 제거하는 데 초점을 맞추었다.
하지만 잔향은 단순한 소음이 아니라, 공간의 크기·재질·위치 등 환경 정보를 담고 있는 중요한 단서다.
본 논문 ReverbMiipher는 기존 복원 모델(Miipher-2)을 확장하여, 노이즈 제거뿐만 아니라 잔향 특성을 제어할 수 있는 새로운 음성 복원 모델을 제안한다. 이를 통해 사용자는 상황에 맞게 깨끗한 음성과 잔향 있는 음성을 모두 생성할 수 있다.
2. 연구 배경
기존 문제
- 잡음 제거 모델들은 잔향까지 무조건 제거해버려 음성이 비자연스럽게 들리거나 현장감이 사라졌다.
- 공간의 울림은 단순한 방해 요소가 아니라, 청취자가 이 소리가 어디서 나는지를 이해하는 데 중요한 정보다.
연구 필요성
- 회의·강연 녹음에서는 잔향을 줄여 명확성을 높이는 것이 유리하다.
- 반대로 음악·라이브 공연 등에서는 잔향이 현장감을 살리는 데 필수적이다.
- 따라서 잔향을 없앨 수도 있고, 남길 수도 있는 유연한 복원 기술이 필요하다.
3. 실험 설계

(a) Miipher-2 구조
- 입력: 16kHz의 노이즈가 섞인 128차원 멜 필터뱅크(mel fbank)
- Feat cleaner (USM + Parallel Adapter): 음성 특징을 정제(clean)
- 출력 특징: 1536차원의 SSL(Self-Supervised Learning) feature
- WaveFit vocoder: 특징을 다시 파형으로 변환
- 최종 결과: 깨끗한 음성(s: clean wav)
즉, 잡음이 심한 음성을 깨끗하게 복원하는 모델이다.
(b) ReverbMiipher 구조
- Reverb Encoder: 입력 음성에서 512차원 잔향 특징(c)을 추출
- Random switching: 학습 시 잔향 벡터(c) 또는 제로 벡터를 무작위로 선택 → 다양한 상황(잔향/무잔향) 학습
- Feat cleaner (USM + Adapter): 음성 특징 정제
- WaveFit vocoder: 정제된 특징을 음성으로 변환
- 출력:
- s: clean wav → 잔향 제거된 깨끗한 음성
- s * r: reverb wav → 잔향이 유지·재현된 음성
필요에 따라 조용한 스튜디오 톤 또는 라이브 공연장 톤을 선택적으로 만들 수 있다.
4. 주요 결과
- 복원 품질 향상: 기존 Miipher-2 대비 음질 평가 지표(PESQ, SI-SDR 등)에서 향상된 성능
- 잔향 제어 가능: 동일한 입력으로 클린 버전과 잔향 버전을 모두 생성 가능
- 일반화 성능: 다양한 녹음 환경(강당·회의실·야외 등)에서도 안정적 성능 확인
5. 이론적 해석
ReverbMiipher는 파라메트릭 재합성(parametric resynthesis) 프레임워크를 확장한 구조이다.
- 음성 콘텐츠(화자·발음)와 공간 잔향 특성을 분리해 표현
- 복원 과정에서 잔향 벡터를 제어 가능하게 설계
- 최종 파형 합성 단계에서 원하는 형태의 음성을 선택적으로 복원
핵심은 잔향을 단순히 제거할 대상이 아니라, 조절 가능한 요소로 재정의한 것이다.
6. 결론
ReverbMiipher는 기존 음성 복원 기술이 가진 한계를 넘어, 잡음 제거와 잔향 제어라는 새로운 가능성을 제시했다.
- 필요에 따라 명료한 음성 또는 현장감 있는 음성을 생성할 수 있다.
- 음성 처리에서 환경 정보까지 고려하는 복원이라는 새로운 패러다임을 열었다.
7. 이외 (확장 가능성)
실제 응용 분야:
- 원격 회의·강의 녹음 → 깨끗한 음성
- 음악 제작·공연 후반 작업 → 잔향 있는 음성
- 영화·게임 사운드 디자인 → 공간감 표현
향후 연구 방향:
- 잔향의 강도·길이·주파수 대역까지 세밀하게 조절하는 기능
- 실시간 스트리밍 음성 복원
- 멀티채널 입력과 결합해 공간 거리감까지 재현
'Research & Paper' 카테고리의 다른 글
| DINOv3 (0) | 2025.09.09 |
|---|---|
| TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance (0) | 2025.09.09 |
| FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (0) | 2025.09.08 |
| Mamba: Linear-Time Sequence Modeling with Selective State Spaces (0) | 2025.09.08 |
| AI models collapse when trained on recursively generated data (0) | 2025.07.28 |