modality gap 연구 확장 검토 — log-16: 선행연구 서베이 및 연구 방향 설계
Modality gap 연구의 확장 가능성을 검토하고, 기존 연구와 차별화할 수 있는 연구 방향을 설계했다.
동기
지금까지 Kanana-o 실험(Exp A/B)으로 4개 omni 모델에서 67~92%의 cross-modal disagreement rate, HCX의 img-aud tau=1.000, 도메인별 gap 역전 등 흥미로운 발견이 있었다. 이 연구를 더 확장할 수 있는지 — 이미 어떤 연구가 있고, 빈 자리가 어디인지 — 를 체계적으로 검토하려 한다.
핵심 질문: “동일 정보를 다른 모달리티로 넣었을 때 omni 모델이 같은 답을 내놓는가?”라는 문제를 최신 연구 수준에서 누가 어떻게 다루고 있는가?
선행 연구 서베이
1. Input modality gap 측정
OmnixR (Google DeepMind) — ICLR 2025
가장 직접적인 선행 연구. 우리 Exp A 설계와 컨셉이 거의 같다.
- 방법: MMLU-Pro(12K, 10지선다)를 Omnify 파이프라인으로 text → image/audio/video로 자동 변환. 이를 OmnixR-Synth로 명명. 별도로 YouTube 교육 영상 100개에서 전문가가 직접 큐레이션한 OmnixR-Real(Math, Coding, Physics, Chemistry)도 구축.
- 모델: GPT-4o, Gemini 등 SOTA omni 모델 평가.
- 핵심 발견: 모든 SOTA OLM이 cross-modal 통합 추론에서 고전. 모달리티가 달라지면 reasoning behavior 자체가 달라짐. Gemini-1.5-Flash의 경우, 같은 질문을 text로 주면 올바른 추론 + 정답, image로 주면 합리적 추론 + 오답, audio/video로 주면 추론 자체가 없어지고 오답.
- 제안: ETA prompting(“Extract the information and Then Answer”) — 먼저 모달리티에서 정보를 추출한 뒤 답하라는 전략으로 일관성과 정확도가 유의미하게 향상. 단, real-world 시나리오에서는 이 전략도 한계.
- 데이터 공개 여부: 공개 릴리즈를 못 찾음. GitHub/HuggingFace 모두 없음. 다만 소스인 MMLU-Pro는 완전 공개(HuggingFace: TIGER-Lab/MMLU-Pro).
- 한계: Output modality 고정(text only). 과제 유형 단일(정보 대칭/지식 QA만). 감정이나 prosody처럼 모달리티 고유 정보가 있는 과제 미검토.
REST/REST+ (“Same Content, Different Answers”) — van Sprang et al., arXiv 2025.12
- 방법: 동일 semantic 정보를 text/image/mixed(text+image) 3조건으로 제시. REST(Render-Equivalence Stress Test) 벤치마크 제안.
- 규모: 15개 SOTA MLLM 평가.
- 핵심 발견: 어떤 모델도 모달리티 간 일관적으로 추론하지 못함. OCR이 정확해도 inconsistency 발생 — 즉 단순 인식 문제가 아니라 내부 처리 경로의 차이. 시각적 특성(텍스트 색상, 해상도)과 vision token 수가 성능에 영향. Consistency score가 modality gap과 상관관계.
- 한계: Audio 미포함(text-image 2-way만). Output modality 미검토.
Beyond Text-Dominance — arXiv 2026.04 (매우 최근)
- 방법: 10개 omni LLM의 modality preference를 conflict-based 벤치마크와 modality selection rate 지표로 측정. Layer-wise probing으로 내부 메커니즘 분석.
- 핵심 발견: 기존 VLM은 “text dominance”(텍스트 우위)인데, native omni LLM은 오히려 visual preference(시각 우위)를 보임. 이 preference는 static이 아니라 mid-to-late 레이어에서 점진적으로 형성됨. 이 내부 신호를 활용해 cross-modal hallucination을 진단할 수 있음.
- 한계: 과제 특성별 분석 없음(모든 과제를 뭉뚱그림). Output modality 미검토.
2. Speech-text modality gap 내부 분석
Understanding the Modality Gap — Xiang et al., EMNLP 2025 main
- 방법: Large Speech Language Model(LSLM)에서 speech-text alignment 메커니즘을 최초로 체계적 분석. Fine-grained level에서 자발적인 token-level alignment 패턴을 발견하고, 이를 정량화하는 Alignment Path Score를 제안.
- 핵심 발견: Modality gap의 주요 원인은 textual-auditory modality 간 suboptimal alignment. Alignment Path Score가 기존 지표보다 modality gap과 더 강한 상관. 개입 실험(angle projection, length normalization)으로 critical token의 alignment을 개선하면 speech 입력 정확도가 향상됨.
- 한계: Speech LLM 대상이라 omni 3-way(text/image/audio) 비교 아님. 과제 특성 변수 없음.
Anatomy of the Modality Gap — arXiv 2026.03
- 방법: 4개 open-weight end-to-end Speech LLM에서 speech와 text 표현이 레이어별로 어떻게 진화하는지 cross-layer CKA(Centered Kernel Alignment)로 분석. SpeechMMLU, VoiceBench BBH 벤치마크 사용.
- 핵심 발견: Speech 표현은 mid 레이어에서 text와 가깝게 수렴하지만, late 레이어에서 정확한 lexical choice를 안정적으로 분리하는 데 실패. 근본 원인은 semantic information granularity의 구조적 불일치 — text 토큰은 information-dense하고 late-layer에서 residual sharpening phase가 있지만, speech 토큰은 redundant하고 여러 프레임에 분산되어 있어 이 sharpening이 안 됨.
- 한계: 내부 표현 분석 중심. 외부 행동(과제 성능) 비교가 주목적 아님. 과제 특성별 분석 없음.
Closing the Modality Reasoning Gap (TARS) — arXiv 2026.01
- 방법: RL(강화학습)로 speech-text 추론 갭을 줄이는 프레임워크 TARS 제안. Text-conditioned trajectory와 speech-conditioned trajectory를 asymmetric reward로 정렬. Representation alignment(레이어별 hidden-state 유사도)과 behavior alignment(생성 출력의 semantic consistency) 두 축.
- 핵심 발견: MMSU, OBQA 등 추론 벤치마크에서 modality reasoning gap을 유의미하게 축소. 7B 규모 Speech LLM 중 SOTA.
- 한계: Method 논문이라 “gap을 줄이는 법”에 집중. 과제 특성에 따른 gap 방향 차이(어떤 과제에서는 audio가 유리할 수 있다는 가능성) 분석 없음.
3. Audio-specific 정보 활용
LISTEN (“Do Audio LLMs Really LISTEN, or Just Transcribe?”) — EACL 2026
우리 Exp C(감정 이해) 방향과 가장 가까운 연구.
- 방법: LISTEN(Lexical vs. Acoustic Speech Test for Emotion in Narratives) 벤치마크로, 감정 이해에서 lexical cue와 acoustic cue의 기여를 분리. 4가지 통제 조건: (1) Neutral-Text — 텍스트는 중립인데 acoustic cue만 변화, (2) Emotion-Matched — lexical과 acoustic이 일치, (3) Emotion-Mismatched — lexical과 acoustic이 충돌(풍자 같은 상황), (4) Paralinguistic — lexical 내용 없이 감정 전달(웃음, 한숨 등).
- 모델: 6개 SOTA large audio language model 평가.
- 핵심 발견: 모든 모델이 일관되게 lexical dominance를 보임 — 즉 “듣는” 게 아니라 “transcribe”하고 있다. Neutral-Text 조건(텍스트가 중립이고 acoustic cue만 감정적)에서 모델은 “neutral”로 예측. Emotion-Matched에서도 개선이 제한적. Emotion-Mismatched(풍자)에서 감정 분류 실패. Paralinguistic(비언어적 감정)에서는 거의 chance level.
- 데이터: GitHub 공개 (VibeCheck1/LISTEN_full).
- 한계: “못 듣는다”는 진단만 하고, “어떤 조건에서는 듣는다”는 분석 없음. Omni 모델 간 비교 없음. Output modality 미검토.
Spoken Sarcasm Understanding — arXiv 2025 (2509.15476)
- 방법: 풍자 탐지에서 text-only vs audio-only vs multimodal 비교. MUStARD++ 벤치마크 등 사용.
- 핵심 발견: Audio-only 모델(Wav2Vec2.0)이 text-only를 F1 기준 10%+ 앞섬 — 풍자에서는 prosody가 결정적 단서. Text+Audio 결합(76.8% F1)이 audio-only(75.1%)나 text-only(66.4%)보다 높음. Qwen-Omni 같은 omni 모델도 zero-shot으로 competitive.
- 의의: Audio가 text보다 유리한 과제가 실재함을 보여주는 직접적 증거. 단, 풍자에 한정된 연구이고 체계적 과제 유형 비교는 아님.
MLLMs are Deeply Affected by Modality Bias — arXiv 2025.05
- 방법: MLLM의 modality bias를 3가지 원인으로 분석.
- 핵심 발견: (1) Data 특성 — 언어 데이터는 compact/abstract한데 시각 데이터는 redundant/complex해서 학습 역학에 불균형, (2) Imbalanced backbone — pretrained LM이 dominant해서 시각 정보를 underutilize, (3) Training objective — 현재 학습 목표가 cross-modal alignment을 충분히 촉진하지 못해 shortcut learning 유발.
- 후속 연구: 이 논문에 자극받아 “text bias는 data 특성이 아니라 attention mechanism의 내부 구조에서 기인한다”는 연구(attention key-space 분석)도 나옴.
4. 관련 벤치마크/도구
- EmoBox (Interspeech 2024): 다국어 다코퍼스 SER 툴킷. IEMOCAP, MELD, RAVDESS, SAVEE 4개 데이터셋. Intra-corpus/cross-corpus 설정. [GitHub]
- VoxEmo (arXiv 2026): 35개 코퍼스, 15개 언어 통합 SER 벤치마크. Speech LLM 평가 프로토콜 표준화. EmoBox baseline 대비 MELD +6.3, M3ED +4.4 개선. 규모 면에서 가장 큼.
- CASE: Acoustic-semantic emotion conflict 벤치마크. “괜찮아”를 울면서 말하는 것처럼 텍스트 감정과 음성 감정이 충돌하는 상황. Whisper baseline 47.3% ACC, FAS 모델 59.4%.
- KEMDy20 (ETRI): 한국어 감정 멀티모달 데이터셋. 80명(19~39세), 40세션. 음성+텍스트+생체신호(EDA, IBI, 피부온도). 6개 주제 영상 시청 후 자유 대화. [다운로드]
- K-EmoCon: 한국어 자연 대화 감정 데이터셋. 16세션 토론. 3관점 annotation(자기, 상대, 외부 관찰자). 최초의 다관점 감정 평가 공개 데이터. [Zenodo]
5. Output modality 관련 기존 연구
기존 연구들은 거의 모두 input modality를 변수로, output은 text 고정이다. Output modality를 다룬 것은 주로 모델 아키텍처 논문:
- LLaMA-Omni (ICLR 2025): text와 speech를 동시 생성하는 구조. 하지만 “text output vs speech output 품질 비교”는 아님.
- MGM-Omni: “brain-mouth” 설계 — 추론(text)과 발화(speech)를 분리하는 dual-track 아키텍처.
- Qwen2.5-Omni / Qwen3-Omni / Qwen3.5-Omni: text+speech 동시 출력 지원. text와 speech를 분리 비교할 수 있는 구조.
- 관련 발견: 모달리티 확장(speech output 추가)이 core language 능력(IFEval, HumanEval+ 등)을 저하시킨다는 보고 있음. Speech output이 길어지면 hallucination이 증가한다는 관찰도 있음.
핵심 공백: “같은 모델, 같은 인풋인데 text로 답하게 할 때 vs speech로 답하게 할 때 정확도/일관성이 다른가?”를 체계적으로 비교한 연구는 없다.
문헌 공백 (Gap in Literature) 종합
| 공백 | 현재 상태 | 기회 |
|---|---|---|
| Output modality 변수 | 모든 기존 연구가 output text 고정 | Input × Output full matrix (3×2=6 조건) |
| Input × Output × Task type 통합 | 각각 별개 연구 (OmnixR, LISTEN, Beyond Text-Dominance 등) | 하나의 프레임워크로 통합 |
| 과제 특성에 따른 gap 역전 | 지식 QA에서 text 우위만 확인. 풍자에서 audio 우위는 개별 연구로만 존재 | 같은 모델 셋에서 정보 대칭 vs prosody-dependent 과제 직접 비교 |
| Mismatch cost 정량화 | “gap이 있다”는 보고만. “얼마나 손해인가”는 미정량 | 수치로 직접 제시 |
| “Audio LLM이 듣는” 조건 | LISTEN이 “못 듣는다” 진단. “어떤 조건에서는 듣는다”는 미탐구 | Prosody 과제에서 audio 우위 조건 발굴 |
연구 방향 설계
핵심 Thesis
Omni 모델의 modality gap은 단순한 bug가 아니라, 과제가 요구하는 정보의 modality-specificity에 의해 방향과 크기가 결정되는 체계적 현상이다. 이를 이해하면 modality routing을 통해 성능을 의도적으로 개선하거나, 잘못된 선택의 cost를 회피할 수 있다.
연구 질문
RQ1. 정보 대칭 과제(지식 QA)에서 input modality × output modality 조합에 따라 성능 갭이 존재하는가?
RQ2. Input-output modality가 일치할 때(예: audio in → speech out) 불일치할 때보다 더 나은 성능을 보이는가? 만약 그렇다면, 이는 내부 처리 경로의 효율 차이로 설명될 수 있는가? (open-source 모델에서 layer별 분석이 가능하다면 이 가설을 직접 검증할 수 있음)
RQ3. 모달리티 고유 정보가 있는 과제(감정 인식, 풍자 탐지 등)에서는 gap 패턴이 역전되는가? — 즉, audio input이 text input보다 우위인 조건이 존재하는가? 그런 Task를 체계적으로 찾아내는 것이 핵심.
RQ4. Modality mismatch의 정량적 cost는 얼마이며, task-aware modality routing은 성능을 얼마나 개선하는가?
가설
- H1: 정보 대칭 과제에서는 text in → text out이 최적이며, 다른 조합으로 갈수록 성능이 하락한다.
- H2: Input-output modality 일치 시 내부 처리 경로의 효율이 높아져 성능이 향상된다. Open-source 모델(Qwen-Omni 등)에서 layer별 hidden state 분석(CKA 등)으로 이 메커니즘을 직접 검증할 수 있을 것이다.
- H3: Prosody-dependent 과제에서는 audio in이 text in을 능가한다. Text로 transcribe하면 핵심 정보(억양, 감정 톤, 망설임 등)가 손실된다. 특히 대화적 맥락에서 감정 간 미묘한 차이를 포착해야 하는 과제에서 이 효과가 극적일 수 있다.
실험 매트릭스
Input modality (3): Text / Image / Audio
Output modality (2): Text / Speech
= 6 조건 per task per model
Image output은 현재 omni 모델이 동일 파이프라인 내에서 지원하지 않으므로 제외. “현재 omni 모델이 지원하는 output modality 기준으로 설계”로 justify.
과제 유형
| 유형 | 설명 | 모달리티 고유 정보 | 예상 우위 |
|---|---|---|---|
| 정보 대칭 (Modality-neutral) | 동일 명제적 정보를 모달리티 변환. 지식 QA. | 없음 — 어떤 모달리티로 넣든 정보량 동일 | Text |
| Audio-advantage | Prosody, 톤, 감정이 핵심 단서인 과제 | Prosody, 억양, 감정 톤, 망설임, 풍자 | Audio |
| Image-advantage (optional) | 공간 배치, 도표, 시각적 구조가 핵심 | 공간 관계, 시각적 레이아웃 | Image |
“모달리티 고유 정보”는 감정만이 아니다:
- Audio-specific: 감정/prosody, 풍자/반어(“아 진짜 잘했다~” — 텍스트는 칭찬, 톤은 비꼼), 화자 특성(나이/성별/사투리/건강 상태), 발화 불확실성(망설임 “음…”, 자기 수정, 말더듬 — transcription에서 대부분 소실), 턴테이킹/대화 역학(끼어들기, 침묵 길이, 동시 발화), 환경음(배경으로 맥락 추론), 음악 이해(멜로디, 화성, 리듬)
- Image-specific: 공간 배치(물체 상대 위치), 도표/차트(시각적 구조가 핵심), 시각적 유머/밈(이미지-텍스트 조합 의미), 필기/손글씨(스타일 자체가 정보)
데이터
정보 대칭 과제
| 데이터셋 | 언어 | 규모 | 비고 |
|---|---|---|---|
| MMLU-Pro | 영어 | 12K (10지선다) | OmnixR과 동일 소스. 500~1000 샘플 추출. HuggingFace: TIGER-Lab/MMLU-Pro |
| KMMLU | 한국어 | - | 추가 분석용 (cross-lingual 축). 이미 Exp A에서 사용 중 |
모달리티 변환:
- Text → Image: 텍스트 렌더링 PNG (Pillow 등)
- Text → Audio: TTS (영어: OpenAI TTS 등, 한국어: macOS
say -v Yuna) - 모든 아티팩트는 실험 전 1회 일괄 생성하여 고정. 모델 간 동일 입력 보장.
Audio-advantage 과제
| 데이터셋 | 언어 | 규모 | 특징 |
|---|---|---|---|
| IEMOCAP | 영어 | ~12시간 | SER 표준 벤치마크. 대화 기반 감정 인식. 가장 널리 쓰임 |
| MELD | 영어 | 13K utterances | Friends 드라마 기반. 다화자 감정 인식. 규모 큼 |
| KEMDy20 | 한국어 | 80명, 40세션 | ETRI. 자유 대화 + 감정 + 생체신호 |
| K-EmoCon | 한국어 | 16세션 토론 | 3관점 감정 annotation. Zenodo 공개 |
Audio-advantage 과제에서는 원본 음성이 이미 존재하므로, audio → text(ASR transcription)으로 text 조건을 생성. 이를 통해 “transcribe하면 얼마나 손실되는가”를 직접 측정 가능 — 이것이 정보 대칭 과제(text→audio TTS 변환)와 대칭적 설계.
비교 모델
| 모델 | Text+Speech output | 비고 |
|---|---|---|
| GPT-4o | ✅ | Closed-source, API. 가장 널리 알려진 omni 모델 |
| Gemini 2.5 Pro | ✅ | Closed-source, API. Audio reasoning 벤치마크 최고 수준 |
| Qwen2.5-Omni | ✅ (동시 출력) | Open-source, 로컬 가능. text/speech 분리 비교 용이 |
| Qwen3-Omni | ✅ | Open-source |
| Qwen3.5-Omni | ✅ | Open-source, 최신. Audio에서 Gemini 2.5 Pro/GPT-4o 능가 보고 |
최소 5개 이상으로 일반화 가능성 확보. Text+Speech output을 모두 지원하는 모델만 선정. (Kanana-o는 API 제약 + 한국어 특화라 메인에서는 제외, 추가 분석으로 활용 가능)
측정 지표
정확도 관련:
- 모달리티 조건별 정답률 (지식 QA, 4/10지선다)
- 모달리티 조건별 F1 score (감정 인식)
일관성 관련:
- Cross-modal disagreement rate: 동일 질문에 대해 모달리티 조합별 응답 불일치 비율. Exp A에서 67~92%로 관측된 지표.
- Kendall’s tau: 모달리티 쌍 간 정오답 패턴 상관. Exp A에서 HCX의 img-aud tau=1.000, Kanana의 txt-aud tau=0.247 등 모델별 내부 경로 구조 차이를 드러낸 지표.
Modality routing 효과:
- Modality mismatch cost: 최적 모달리티 대비 비최적 모달리티 사용 시 성능 하락폭 (예: “풍자 탐지에서 audio 대신 text를 쓰면 F1이 X% 하락”)
- Task-aware routing gain: 과제 특성에 맞는 모달리티 선택 시 naive 대비 개선폭
Speech output 평가:
- Speech output → ASR transcription → text 기준 정확도 비교
- 또는 직접 semantic similarity 측정
- Fair comparison 방법론 검토 필요 (ASR 자체의 에러가 개입하므로)
결론부 방향: “분석 → 직접 실증”
도메인 나열식(“콜센터에서는 이렇고 교육에서는 저렇고”)은 얕아 보임. 대신 실험 안에서 직접 보여주는 구조:
1. Modality routing 실험
같은 과제를 두 가지 전략으로 풀게 하고 성능 비교:
- Naive: 아무 모달리티나 사용 (예: 감정 인식인데 text로 transcribe해서 입력)
- Informed: 과제 특성에 맞는 모달리티 선택 (감정 인식이면 audio로 입력) → Informed routing이 naive 대비 몇 % 올라가는지 직접 수치로.
2. 잘못된 모달리티 선택의 cost 측정
의도적으로 “나쁜” 모달리티 조합을 쓰게 해서 성능 하락폭을 정량화:
- 풍자 탐지를 text only로 → F1이 얼마나 떨어지나
- 지식 QA를 audio로 → 정답률이 얼마나 떨어지나 → “잘못된 모달리티 선택의 대가”를 숫자로 보여주는 거. “Modality mismatch는 평균 X% 성능 하락을 유발한다” 같은 결론.
3. Cascading error 분석
audio in → transcribe(ASR) → text로 처리하는 파이프라인 vs audio in → omni 모델에 직접 처리 → Transcribe 과정에서 정보가 얼마나 손실되는지. 특히 prosody 과제에서 극적일 것. → “Transcribe하면 감정 인식 정확도가 X% 하락한다”는 구체적 수치.
이렇게 하면 결론이 “~하면 좋겠다”가 아니라 실험적 증거가 됨:
- “Modality mismatch는 평균 X% 성능 하락을 유발한다”
- “특히 prosody 의존 과제에서 text 변환 시 Y% 손실이 발생한다”
- “반면 지식 QA에서 audio 입력은 text 대비 Z% 손해이므로 text 경로가 유리하다”
포지셔닝
OmnixR(ICLR 2025)은 input modality를 변수로 두고 “gap이 있다”는 문제를 제기했지만, output은 text로 고정했고 과제 유형도 정보 대칭(지식 QA)에 한정됐다. 본 연구는 여기에 output modality 변수를 추가하고, 모달리티 고유 정보가 있는 과제(감정/prosody 등)를 포함하여 “gap의 방향이 과제 특성에 따라 역전된다”는 점과 “mismatch cost를 정량화할 수 있다”는 점을 보이려 한다.
LISTEN(EACL 2026)은 “Audio LLM이 acoustic cue를 활용하지 못한다”는 진단을 내렸지만, 그것이 모든 조건에서 그런지는 검토하지 않았다. 본 연구는 “어떤 과제에서는 audio가 text보다 유리하다”는 조건을 찾고, 이를 modality routing으로 활용할 수 있음을 실증하려 한다.
논문 장르
분석/평가(evaluation) 논문. OmnixR(ICLR 2025), LISTEN(EACL 2026), REST(arXiv 2025)와 같은 장르. 이 장르가 최근에 잘 받히고 있음. Method 논문(모델 학습/fine-tuning)이 아니므로 API 호출 + 통계 분석으로 충분.
다만 분석만으로 끝나면 “so what?” 리뷰 우려 → 위의 routing 실험 / mismatch cost / cascading error 분석이 이를 방어.
예상 기여
- Input × Output × Task type 통합 평가 프레임워크 — 기존 연구가 input modality만 변수로 다룬 것을 output modality와 과제 특성까지 확장한 최초의 체계적 프레임워크.
- Modality gap 역전의 실증 — 정보 대칭 과제에서의 text 우위가 prosody-dependent 과제에서 역전됨을 대규모 실험으로 증명.
- Modality mismatch cost의 정량화 — 잘못된 모달리티 선택이 성능에 미치는 영향을 구체적 수치로 제시.
- Task-aware modality routing의 효과 실증 — 과제 특성에 맞는 모달리티 조합 선택이 naive 접근 대비 유의미한 성능 향상을 가져옴을 실험으로 증명.
RQ1+RQ2+RQ3+RQ4를 하나의 프레임워크로 묶으면 기여가 3~4겹이라 long paper 분량.
예상 논문 구조
- Introduction — omni 모델의 “어떤 모달리티든 동일한 품질” 가정에 대한 문제 제기
- Related Work — input modality gap (OmnixR, REST), speech-text alignment (EMNLP 2025, Anatomy), modality bias (Beyond Text-Dominance), audio-specific (LISTEN, Sarcasm)
- Framework — input × output × task type 평가 프레임워크 제안
- Experimental Setup — 데이터, 모델, 모달리티 변환 방법, 평가 지표
- Results & Analysis
- RQ1: 정보 대칭 과제에서의 input × output gap 패턴
- RQ2: Input-output modality 일치 효과
- RQ3: Audio-advantage 과제에서의 gap 역전
- RQ4: Modality mismatch cost 및 routing gain 정량화
- Discussion — omni 모델 사용자 및 개발자를 위한 함의
- Conclusion
Venue
ACL 계열 학회(ACL, EMNLP, NAACL, EACL)가 우선 — evaluation 논문이 잘 받히는 커뮤니티이고, OmnixR(ICLR), LISTEN(EACL) 후속으로 자연스럽다. Audio 축을 강조하면 Interspeech/ICASSP도 가능하지만 우선순위는 아님.
리스크 및 확인 사항
- Speech output API 지원 확인: GPT-4o, Gemini, Qwen-Omni에서 프로그래밍적으로 speech output을 받아 평가할 수 있는지. Qwen2.5-Omni는 text+speech 동시 출력이라 분리 비교가 가능할 것으로 보이나, closed-source 모델(GPT-4o, Gemini)은 API 제약 확인 필요.
- Speech output 평가 방법론: ASR transcribe 후 text 비교 vs 직접 semantic similarity — 어떤 방법이 fair한지 검토. ASR 자체의 에러가 confound가 될 수 있음.
- OmnixR 데이터 공개 여부: 미공개 시 MMLU-Pro에서 직접 모달리티 변환 파이프라인 구축 (이미 Exp A에서 유사한 작업 경험 있음).
- 실험 규모: 모델 5개 × 6조건 × 2과제 유형 × 500+ 샘플 = API 비용 및 compute 추산. Open-source 모델은 로컬 GPU(RTX 3090 ×4)로 처리 가능하나 closed-source는 비용.
- Image-advantage 과제 포함 여부: Scope 결정. 포함 시 기여가 넓어지지만 실험 규모 증가. 메인 스토리가 text-audio 축이면 보조 분석으로 처리하는 것도 옵션.
References
- OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities. Burak Suyunu, Hannah Sterz, Yusuf Baran Tanrikulu, Pranav Guruprasad, Kaixin Ma, Jiang Guo. ICLR 2025. [paper] [OpenReview]
- Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs. Angela van Sprang et al. arXiv:2512.08923, 2025.12. [paper]
- Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models. arXiv:2604.16902, 2026.04. [paper]
- Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models. Bajian Xiang, Shuaijiang Zhao, Tingwei Guo, Wei Zou. EMNLP 2025 main. [paper]
- Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs. arXiv:2603.01502, 2026.03. [paper]
- Closing the Modality Reasoning Gap for Speech Large Language Models. Chaoren Wang et al. arXiv:2601.05543, 2026.01. [paper]
- Do Audio LLMs Really LISTEN, or Just Transcribe? Measuring Lexical vs. Acoustic Emotion Cues Reliance. Jingyi Chen, Zhimeng Guo, Jiyun Chun, Pichao Wang, Andrew Perrault, Micha Elsner. EACL 2026. [paper] [GitHub]
- Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding. arXiv:2509.15476, 2025. [paper]
- MLLMs are Deeply Affected by Modality Bias. arXiv:2505.18657, 2025.05. [paper]
- When Audio-LLMs Don’t Listen: A Cross-Linguistic Study of Modality Arbitration. arXiv:2602.11488, 2026.02. [paper]
- MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark. NeurIPS 2024. [HuggingFace] [GitHub]
- EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark. Interspeech 2024. [GitHub]
- VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs. arXiv:2603.08936, 2026. [paper]
- K-EmoCon, a multimodal sensor dataset for continuous emotion recognition in naturalistic conversations. Park et al. Scientific Data, 2020. [paper] [Zenodo]
- KEMDy20: Korean Emotion Multimodal Database in 2020. ETRI. [다운로드]
2026-04-22 작성. 선행연구 서베이 및 연구 방향 초안. 실험 착수 전 검토 단계.