kanana-o modality gap — log-02: 문헌 조사
문헌 조사: Modality Gap in Omni-modal LLMs
1. 개념적 기반: Modality Gap in Contrastive Learning
Liang et al. (2022). Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning. NeurIPS 2022.
- arXiv: 2203.02053
CLIP 계열 모델에서 이미지와 텍스트 임베딩이 공유 표현 공간에서 서로 명확히 분리된 영역(cone)에 위치한다는 현상을 분석한 논문. 이 분리를 modality gap으로 정의.
원인 분석
| 요인 | 설명 |
|---|---|
| 모델 초기화 | 개별 인코더의 표현이 초기화 시점에 이미 좁은 cone 내에 분포 |
| Contrastive learning | 온도 파라미터(temperature)에 의해 모달 간 거리가 유지됨 |
핵심 주장: modality gap은 학습의 부산물이 아니라 구조적으로 유도된 현상이며, 이 gap의 크기가 zero-shot 분류 성능 및 공정성(fairness)에 직접 영향을 미침.
본 연구와의 관련성: Liang et al.은 CLIP의 표현 공간에서의 갭을 다루지만, 본 연구는 omni-modal LLM의 입력 처리 성능에서 나타나는 갭을 측정한다. 개념적 계보는 이어지되, 대상 모델 클래스와 측정 층위가 다름.
2. Omni-modal LLM에서의 모달리티 갭
2-1. OmniBench (Li et al., 2024)
[2409.15272] OmniBench: Towards The Future of Universal Omni-Language Models
- arXiv: 2409.15272, ICLR 2025
시각/음향/텍스트 입력을 동시에 처리하는 omni-language model(OLM)을 평가하기 위한 벤치마크. 세 모달리티의 동시 처리 능력에 초점.
주요 발견
- 현존 베이스라인 모델 대부분이 이미지·오디오의 텍스트 대체 표현을 제공해도 50% 미만의 정확도를 기록
- 텍스트/이미지/오디오로부터 일관된 맥락을 구성하는 능력이 기존 MLLM 학습 패러다임에서 체계적으로 누락되어 있음을 시사
2-2. OmnixR (ICLR 2025)
[2410.12219] OmniR: Evaluating Omni-modality Language Models on Reasoning across Modalities
- OpenReview: jki6EFsZLw
모달리티 간 추론(cross-modal reasoning)을 요구하는 태스크 중심의 평가 스위트. OLM의 modality behaviour discrepancy를 정량적으로 측정한 최초의 벤치마크.
주요 발견
- Gemini 2.5 Pro조차 동일한 의미 내용을 오디오로 전달할 때 텍스트 대비 성능이 유의미하게 하락
- 모달리티 갭은 모델 규모와 무관하게 지속됨
2-3. Vision-Audio Gap in Open-Source OLLMs
[2503.00059] Investigating and Enhancing Vision-Audio Capability in Omnimodal Large Language Models. ACL Findings 2025
텍스트 기반 쿼리 대비 오디오 기반 쿼리에서의 성능 저하를 오픈소스 OLLM 전반에 걸쳐 측정.
| 모델 | 텍스트 기반 점수 | 오디오 기반 점수 | 하락폭 |
|---|---|---|---|
| VITA | ~70 | ~8 | -62.2 |
| Megrez | ~70 | ~51 | -19.2 |
- 모든 모델이 텍스트 조건에서 약 70점대를 기록하는 반면, 동일 문제를 오디오로 제시하면 성능이 급격히 저하
- 이미지-텍스트 통합 대비 이미지-오디오 통합 능력이 현저히 약함
3. Speech-Text Alignment Gap in LSLMs
Xiang et al. (2025). Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models. EMNLP 2025 Main
- arXiv: 2510.12116
Large Speech Language Model(LSLM)에서 음성-텍스트 모달리티 갭의 내부 메커니즘을 분석한 논문.
분석 방법
| 수준 | 지표 | 발견 |
|---|---|---|
| 거시적 (레이어) | 코사인 유사도(방향) + 유클리드 거리(크기) | 깊은 층에서 방향은 정렬되나 크기(magnitude)는 오히려 발산 |
| 미시적 (토큰) | Alignment Path Score | 자발적 정렬 패턴 존재, 그러나 불안정 |
핵심 주장: modality gap의 1차 원인은 텍스트-오디오 간 표현의 크기 불일치이며, 이는 현재 contrastive alignment 방법론의 구조적 한계.
비교 수치
\[\text{Whisper-large-v3 + LLaMA-3.1-8B} = 79.06 \text{ (pipeline)} \quad \text{vs} \quad \text{LLaMA-Omni} = 37.51 \text{ (LSLM)}\]동일 백본 기반 end-to-end 모델이 파이프라인 대비 성능이 크게 낮음 → 모달리티 통합 과정에서의 손실을 직접 시사.
4. 멀티모달 평가 벤치마크 개요
본 연구의 방법론적 맥락에서 참조하는 벤치마크들.
| 벤치마크 | 주요 특징 | 문항 수 | 평가 차원 |
|---|---|---|---|
| MME | MLLM의 지각·인지 능력 종합 평가 최초 시도 | - | 14개 서브태스크 |
| MMBench | Circular Evaluation 전략으로 신뢰도 제고 | 2,974 | 20개 능력 차원 |
| SEED-Bench | 다계층(L0~L4) 능력 구조, 인간 어노테이션 | 24K | 27개 차원 |
본 연구와의 차별점: 위 벤치마크들은 자연 이미지·오디오를 다루며 모달리티 다양성보다 태스크 다양성에 초점. 본 연구는 동일 정보를 모달리티만 변환한 통제된 조건에서 성능 갭을 측정.
5. 비교 모델군
모델을 세 그룹으로 구분한다.
5-1. 한국어 특화 omni 모델
| 모델 | 기관 | 파라미터 | 공개 방식 | 출처 |
|---|---|---|---|---|
| Kanana-1.5-o | Kakao | 11.6B | API (베타) | HF |
| HyperCLOVA X SEED 8B Omni | NAVER | 8B | 오픈소스 (2025.12) | arXiv:2601.01792 |
HyperCLOVA X SEED 8B Omni는 텍스트/이미지/오디오 입출력을 지원하는 any-to-any 모델로, 32K 컨텍스트와 OpenAI 호환 API(OmniServe)를 제공한다. 한국어 중심 학습. 두 모델의 갭 패턴을 비교함으로써 한국어 특화 omni 모델 내에서의 구조적 차이를 분석할 수 있다.
5-2. 비한국어 omni 모델 (대조군)
| 모델 | 기관 | 파라미터 | 아키텍처 특징 | 출처 |
|---|---|---|---|---|
| Qwen2.5-Omni | Alibaba | 7B | Thinker-Talker + TMRoPE | arXiv:2503.20215 |
| MiniCPM-o 2.6 | OpenBMB (Tsinghua) | 8B | SigLip + Whisper + ChatTTS + Qwen2.5 | HF |
Qwen2.5-Omni는 Kanana-o 공식 문서에서 직접 비교 대상으로 제시된 모델. MiniCPM-o 2.6은 엣지 디바이스 최적화에 초점을 둔 경량 omni 모델로, 오픈소스 커뮤니티 내 ASR 및 음성 대화 SOTA를 달성했다. 한국어 미특화 → 갭 패턴 차이가 한국어 특화 효과를 분리하는 데 유용.
5-3. 참조군 (조건부 비교)
| 모델 | 기관 | 파라미터 | 지원 모달리티 | 제한 사항 |
|---|---|---|---|---|
| EXAONE 4.5 | LG AI Research | 33B | 텍스트 + 이미지 | 오디오 미지원, 사이즈 미스매치 |
| GPT-4o | OpenAI | 미공개 | 텍스트 + 이미지 + 오디오 | 파라미터 불명확 |
EXAONE 4.5는 한국어 특화 VLM으로 텍스트/이미지 모달리티에서만 참조 비교 가능. GPT-4o는 upper-bound 참조용. 두 모델 모두 사이즈 미스매치가 있어 주 비교군에서 제외하고 한계로 명시한다.
6. 감정 인식 데이터셋: Exp B 설계 참조
K-EmoCon (Park et al., 2020)
- arXiv: 2005.04120, Scientific Data
- 16쌍의 자연 발화 토론 세션, 172.92분 분량
- 3자 어노테이션 (자기/상대방/외부 관찰자). 기존 한국어 감정 데이터셋 중 최초
- 포함 데이터: 오디오(WAV), EEG, 생체 신호
- 한계: 실험실 유발 감정이 아닌 자연 발화 → 감정 레이블 노이즈 가능성
KEMDy20 (ETRI, 2020)
- ETRI NANUM
- 멀티모달(음성 + 텍스트) 감정 데이터셋
- KESDy18의 확장판, 한국어 대화 기반
- 감정 카테고리: 기쁨/슬픔/분노/공포/혐오/중립 등
Exp B에서의 활용 방안
동일 발화를 세 가지 조건으로 제시하여 Kanana-o에게 감정 분류를 요청하고, 조건별 정확도를 비교한다.
- 텍스트 전사 (transcript)
- 중립 TTS 오디오 (감정 제거)
- 원본 감정 오디오
7. 종합: 선행 연구 대비 본 연구의 위치
Liang et al. (2022) - 표현 공간에서의 modality gap (CLIP, 인코더 레벨) → Xiang et al. (2025) - LSLM에서의 speech-text alignment gap (내부 메커니즘) → OmniBench / OmnixR (2025) - Omni-modal LLM의 성능 갭 벤치마킹 (태스크 레벨) → 본 연구 - 한국어 특화 omni 모델에서 과제 유형별 갭 패턴 분석 (정보 대칭 vs 모달리티 고유 정보 과제 대비)
선행 연구에서 다루지 않은 부분
- 한국어 특화 omni 모델을 대상으로 한 분석 없음
- 동일 정보를 모달리티만 변환한 통제 조건(text-as-image, text-as-TTS)에서의 갭 측정은 드묾
- 정보 대칭 과제 vs 모달리티 고유 정보 과제의 체계적 대비 없음
참고문헌
- Liang, W., Zhang, Y., Kwon, Y., Yeung, S., & Zou, J. (2022). Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning. NeurIPS 2022. arXiv:2203.02053
- Li, J. et al. (2024). OmniBench: Towards The Future of Universal Omni-Language Models. ICLR 2025. arXiv:2409.15272
- Xiang, B. et al. (2025). Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models. EMNLP 2025. arXiv:2510.12116
- [2503.00059] Investigating and Enhancing Vision-Audio Capability in Omnimodal Large Language Models. ACL Findings 2025.
- Li, Y. et al. (2023). SEED-Bench. CVPR 2024. arXiv:2307.16125
- Liu, Y. et al. (2023). MMBench. Semantic Scholar
- Xu, J. et al. (2025). Qwen2.5-Omni Technical Report. arXiv:2503.20215
- Park, S. et al. (2020). K-EmoCon, a multimodal sensor dataset for continuous emotion recognition. Scientific Data. arXiv:2005.04120