5 minute read

문헌 조사: Modality Gap in Omni-modal LLMs


1. 개념적 기반: Modality Gap in Contrastive Learning

Liang et al. (2022). Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning. NeurIPS 2022.

CLIP 계열 모델에서 이미지와 텍스트 임베딩이 공유 표현 공간에서 서로 명확히 분리된 영역(cone)에 위치한다는 현상을 분석한 논문. 이 분리를 modality gap으로 정의.

원인 분석

요인 설명
모델 초기화 개별 인코더의 표현이 초기화 시점에 이미 좁은 cone 내에 분포
Contrastive learning 온도 파라미터(temperature)에 의해 모달 간 거리가 유지됨

핵심 주장: modality gap은 학습의 부산물이 아니라 구조적으로 유도된 현상이며, 이 gap의 크기가 zero-shot 분류 성능 및 공정성(fairness)에 직접 영향을 미침.

본 연구와의 관련성: Liang et al.은 CLIP의 표현 공간에서의 갭을 다루지만, 본 연구는 omni-modal LLM의 입력 처리 성능에서 나타나는 갭을 측정한다. 개념적 계보는 이어지되, 대상 모델 클래스와 측정 층위가 다름.


2. Omni-modal LLM에서의 모달리티 갭

2-1. OmniBench (Li et al., 2024)

[2409.15272] OmniBench: Towards The Future of Universal Omni-Language Models

시각/음향/텍스트 입력을 동시에 처리하는 omni-language model(OLM)을 평가하기 위한 벤치마크. 세 모달리티의 동시 처리 능력에 초점.

주요 발견

  • 현존 베이스라인 모델 대부분이 이미지·오디오의 텍스트 대체 표현을 제공해도 50% 미만의 정확도를 기록
  • 텍스트/이미지/오디오로부터 일관된 맥락을 구성하는 능력이 기존 MLLM 학습 패러다임에서 체계적으로 누락되어 있음을 시사

2-2. OmnixR (ICLR 2025)

[2410.12219] OmniR: Evaluating Omni-modality Language Models on Reasoning across Modalities

모달리티 간 추론(cross-modal reasoning)을 요구하는 태스크 중심의 평가 스위트. OLM의 modality behaviour discrepancy를 정량적으로 측정한 최초의 벤치마크.

주요 발견

  • Gemini 2.5 Pro조차 동일한 의미 내용을 오디오로 전달할 때 텍스트 대비 성능이 유의미하게 하락
  • 모달리티 갭은 모델 규모와 무관하게 지속됨

2-3. Vision-Audio Gap in Open-Source OLLMs

[2503.00059] Investigating and Enhancing Vision-Audio Capability in Omnimodal Large Language Models. ACL Findings 2025

텍스트 기반 쿼리 대비 오디오 기반 쿼리에서의 성능 저하를 오픈소스 OLLM 전반에 걸쳐 측정.

모델 텍스트 기반 점수 오디오 기반 점수 하락폭
VITA ~70 ~8 -62.2
Megrez ~70 ~51 -19.2
  • 모든 모델이 텍스트 조건에서 약 70점대를 기록하는 반면, 동일 문제를 오디오로 제시하면 성능이 급격히 저하
  • 이미지-텍스트 통합 대비 이미지-오디오 통합 능력이 현저히 약함

3. Speech-Text Alignment Gap in LSLMs

Xiang et al. (2025). Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models. EMNLP 2025 Main

Large Speech Language Model(LSLM)에서 음성-텍스트 모달리티 갭의 내부 메커니즘을 분석한 논문.

분석 방법

수준 지표 발견
거시적 (레이어) 코사인 유사도(방향) + 유클리드 거리(크기) 깊은 층에서 방향은 정렬되나 크기(magnitude)는 오히려 발산
미시적 (토큰) Alignment Path Score 자발적 정렬 패턴 존재, 그러나 불안정

핵심 주장: modality gap의 1차 원인은 텍스트-오디오 간 표현의 크기 불일치이며, 이는 현재 contrastive alignment 방법론의 구조적 한계.

비교 수치

\[\text{Whisper-large-v3 + LLaMA-3.1-8B} = 79.06 \text{ (pipeline)} \quad \text{vs} \quad \text{LLaMA-Omni} = 37.51 \text{ (LSLM)}\]

동일 백본 기반 end-to-end 모델이 파이프라인 대비 성능이 크게 낮음 → 모달리티 통합 과정에서의 손실을 직접 시사.


4. 멀티모달 평가 벤치마크 개요

본 연구의 방법론적 맥락에서 참조하는 벤치마크들.

벤치마크 주요 특징 문항 수 평가 차원
MME MLLM의 지각·인지 능력 종합 평가 최초 시도 - 14개 서브태스크
MMBench Circular Evaluation 전략으로 신뢰도 제고 2,974 20개 능력 차원
SEED-Bench 다계층(L0~L4) 능력 구조, 인간 어노테이션 24K 27개 차원

본 연구와의 차별점: 위 벤치마크들은 자연 이미지·오디오를 다루며 모달리티 다양성보다 태스크 다양성에 초점. 본 연구는 동일 정보를 모달리티만 변환한 통제된 조건에서 성능 갭을 측정.


5. 비교 모델군

모델을 세 그룹으로 구분한다.

5-1. 한국어 특화 omni 모델

모델 기관 파라미터 공개 방식 출처
Kanana-1.5-o Kakao 11.6B API (베타) HF
HyperCLOVA X SEED 8B Omni NAVER 8B 오픈소스 (2025.12) arXiv:2601.01792

HyperCLOVA X SEED 8B Omni는 텍스트/이미지/오디오 입출력을 지원하는 any-to-any 모델로, 32K 컨텍스트와 OpenAI 호환 API(OmniServe)를 제공한다. 한국어 중심 학습. 두 모델의 갭 패턴을 비교함으로써 한국어 특화 omni 모델 내에서의 구조적 차이를 분석할 수 있다.

5-2. 비한국어 omni 모델 (대조군)

모델 기관 파라미터 아키텍처 특징 출처
Qwen2.5-Omni Alibaba 7B Thinker-Talker + TMRoPE arXiv:2503.20215
MiniCPM-o 2.6 OpenBMB (Tsinghua) 8B SigLip + Whisper + ChatTTS + Qwen2.5 HF

Qwen2.5-Omni는 Kanana-o 공식 문서에서 직접 비교 대상으로 제시된 모델. MiniCPM-o 2.6은 엣지 디바이스 최적화에 초점을 둔 경량 omni 모델로, 오픈소스 커뮤니티 내 ASR 및 음성 대화 SOTA를 달성했다. 한국어 미특화 → 갭 패턴 차이가 한국어 특화 효과를 분리하는 데 유용.

5-3. 참조군 (조건부 비교)

모델 기관 파라미터 지원 모달리티 제한 사항
EXAONE 4.5 LG AI Research 33B 텍스트 + 이미지 오디오 미지원, 사이즈 미스매치
GPT-4o OpenAI 미공개 텍스트 + 이미지 + 오디오 파라미터 불명확

EXAONE 4.5는 한국어 특화 VLM으로 텍스트/이미지 모달리티에서만 참조 비교 가능. GPT-4o는 upper-bound 참조용. 두 모델 모두 사이즈 미스매치가 있어 주 비교군에서 제외하고 한계로 명시한다.


6. 감정 인식 데이터셋: Exp B 설계 참조

K-EmoCon (Park et al., 2020)

  • arXiv: 2005.04120, Scientific Data
  • 16쌍의 자연 발화 토론 세션, 172.92분 분량
  • 3자 어노테이션 (자기/상대방/외부 관찰자). 기존 한국어 감정 데이터셋 중 최초
  • 포함 데이터: 오디오(WAV), EEG, 생체 신호
  • 한계: 실험실 유발 감정이 아닌 자연 발화 → 감정 레이블 노이즈 가능성

KEMDy20 (ETRI, 2020)

  • ETRI NANUM
  • 멀티모달(음성 + 텍스트) 감정 데이터셋
  • KESDy18의 확장판, 한국어 대화 기반
  • 감정 카테고리: 기쁨/슬픔/분노/공포/혐오/중립 등

Exp B에서의 활용 방안

동일 발화를 세 가지 조건으로 제시하여 Kanana-o에게 감정 분류를 요청하고, 조건별 정확도를 비교한다.

  1. 텍스트 전사 (transcript)
  2. 중립 TTS 오디오 (감정 제거)
  3. 원본 감정 오디오

7. 종합: 선행 연구 대비 본 연구의 위치

Liang et al. (2022) - 표현 공간에서의 modality gap (CLIP, 인코더 레벨) → Xiang et al. (2025) - LSLM에서의 speech-text alignment gap (내부 메커니즘) → OmniBench / OmnixR (2025) - Omni-modal LLM의 성능 갭 벤치마킹 (태스크 레벨) → 본 연구 - 한국어 특화 omni 모델에서 과제 유형별 갭 패턴 분석 (정보 대칭 vs 모달리티 고유 정보 과제 대비)

선행 연구에서 다루지 않은 부분

  1. 한국어 특화 omni 모델을 대상으로 한 분석 없음
  2. 동일 정보를 모달리티만 변환한 통제 조건(text-as-image, text-as-TTS)에서의 갭 측정은 드묾
  3. 정보 대칭 과제 vs 모달리티 고유 정보 과제의 체계적 대비 없음

참고문헌

  1. Liang, W., Zhang, Y., Kwon, Y., Yeung, S., & Zou, J. (2022). Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning. NeurIPS 2022. arXiv:2203.02053
  2. Li, J. et al. (2024). OmniBench: Towards The Future of Universal Omni-Language Models. ICLR 2025. arXiv:2409.15272
  3. Xiang, B. et al. (2025). Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models. EMNLP 2025. arXiv:2510.12116
  4. [2503.00059] Investigating and Enhancing Vision-Audio Capability in Omnimodal Large Language Models. ACL Findings 2025.
  5. Li, Y. et al. (2023). SEED-Bench. CVPR 2024. arXiv:2307.16125
  6. Liu, Y. et al. (2023). MMBench. Semantic Scholar
  7. Xu, J. et al. (2025). Qwen2.5-Omni Technical Report. arXiv:2503.20215
  8. Park, S. et al. (2020). K-EmoCon, a multimodal sensor dataset for continuous emotion recognition. Scientific Data. arXiv:2005.04120