modality gap 연구 확장 검토 — log-16: 선행연구 서베이 및 연구 방향 설계

April 22, 2026 14 minute read

Modality gap 연구의 확장 가능성을 검토하고, 기존 연구와 차별화할 수 있는 연구 방향을 설계했다.

동기

지금까지 Kanana-o 실험(Exp A/B)으로 4개 omni 모델에서 67~92%의 cross-modal disagreement rate, HCX의 img-aud tau=1.000, 도메인별 gap 역전 등 흥미로운 발견이 있었다. 이 연구를 더 확장할 수 있는지 — 이미 어떤 연구가 있고, 빈 자리가 어디인지 — 를 체계적으로 검토하려 한다.

핵심 질문: “동일 정보를 다른 모달리티로 넣었을 때 omni 모델이 같은 답을 내놓는가?”라는 문제를 최신 연구 수준에서 누가 어떻게 다루고 있는가?

선행 연구 서베이

1. Input modality gap 측정

OmnixR (Google DeepMind) — ICLR 2025

가장 직접적인 선행 연구. 우리 Exp A 설계와 컨셉이 거의 같다.

방법: MMLU-Pro(12K, 10지선다)를 Omnify 파이프라인으로 text → image/audio/video로 자동 변환. 이를 OmnixR-Synth로 명명. 별도로 YouTube 교육 영상 100개에서 전문가가 직접 큐레이션한 OmnixR-Real(Math, Coding, Physics, Chemistry)도 구축.
모델: GPT-4o, Gemini 등 SOTA omni 모델 평가.
핵심 발견: 모든 SOTA OLM이 cross-modal 통합 추론에서 고전. 모달리티가 달라지면 reasoning behavior 자체가 달라짐. Gemini-1.5-Flash의 경우, 같은 질문을 text로 주면 올바른 추론 + 정답, image로 주면 합리적 추론 + 오답, audio/video로 주면 추론 자체가 없어지고 오답.
제안: ETA prompting(“Extract the information and Then Answer”) — 먼저 모달리티에서 정보를 추출한 뒤 답하라는 전략으로 일관성과 정확도가 유의미하게 향상. 단, real-world 시나리오에서는 이 전략도 한계.
데이터 공개 여부: 공개 릴리즈를 못 찾음. GitHub/HuggingFace 모두 없음. 다만 소스인 MMLU-Pro는 완전 공개(HuggingFace: TIGER-Lab/MMLU-Pro).
한계: Output modality 고정(text only). 과제 유형 단일(정보 대칭/지식 QA만). 감정이나 prosody처럼 모달리티 고유 정보가 있는 과제 미검토.

REST/REST+ (“Same Content, Different Answers”) — van Sprang et al., arXiv 2025.12

방법: 동일 semantic 정보를 text/image/mixed(text+image) 3조건으로 제시. REST(Render-Equivalence Stress Test) 벤치마크 제안.
규모: 15개 SOTA MLLM 평가.
핵심 발견: 어떤 모델도 모달리티 간 일관적으로 추론하지 못함. OCR이 정확해도 inconsistency 발생 — 즉 단순 인식 문제가 아니라 내부 처리 경로의 차이. 시각적 특성(텍스트 색상, 해상도)과 vision token 수가 성능에 영향. Consistency score가 modality gap과 상관관계.
한계: Audio 미포함(text-image 2-way만). Output modality 미검토.

Beyond Text-Dominance — arXiv 2026.04 (매우 최근)

방법: 10개 omni LLM의 modality preference를 conflict-based 벤치마크와 modality selection rate 지표로 측정. Layer-wise probing으로 내부 메커니즘 분석.
핵심 발견: 기존 VLM은 “text dominance”(텍스트 우위)인데, native omni LLM은 오히려 visual preference(시각 우위)를 보임. 이 preference는 static이 아니라 mid-to-late 레이어에서 점진적으로 형성됨. 이 내부 신호를 활용해 cross-modal hallucination을 진단할 수 있음.
한계: 과제 특성별 분석 없음(모든 과제를 뭉뚱그림). Output modality 미검토.

2. Speech-text modality gap 내부 분석

Understanding the Modality Gap — Xiang et al., EMNLP 2025 main

방법: Large Speech Language Model(LSLM)에서 speech-text alignment 메커니즘을 최초로 체계적 분석. Fine-grained level에서 자발적인 token-level alignment 패턴을 발견하고, 이를 정량화하는 Alignment Path Score를 제안.
핵심 발견: Modality gap의 주요 원인은 textual-auditory modality 간 suboptimal alignment. Alignment Path Score가 기존 지표보다 modality gap과 더 강한 상관. 개입 실험(angle projection, length normalization)으로 critical token의 alignment을 개선하면 speech 입력 정확도가 향상됨.
한계: Speech LLM 대상이라 omni 3-way(text/image/audio) 비교 아님. 과제 특성 변수 없음.

Anatomy of the Modality Gap — arXiv 2026.03

방법: 4개 open-weight end-to-end Speech LLM에서 speech와 text 표현이 레이어별로 어떻게 진화하는지 cross-layer CKA(Centered Kernel Alignment)로 분석. SpeechMMLU, VoiceBench BBH 벤치마크 사용.
핵심 발견: Speech 표현은 mid 레이어에서 text와 가깝게 수렴하지만, late 레이어에서 정확한 lexical choice를 안정적으로 분리하는 데 실패. 근본 원인은 semantic information granularity의 구조적 불일치 — text 토큰은 information-dense하고 late-layer에서 residual sharpening phase가 있지만, speech 토큰은 redundant하고 여러 프레임에 분산되어 있어 이 sharpening이 안 됨.
한계: 내부 표현 분석 중심. 외부 행동(과제 성능) 비교가 주목적 아님. 과제 특성별 분석 없음.

Closing the Modality Reasoning Gap (TARS) — arXiv 2026.01

방법: RL(강화학습)로 speech-text 추론 갭을 줄이는 프레임워크 TARS 제안. Text-conditioned trajectory와 speech-conditioned trajectory를 asymmetric reward로 정렬. Representation alignment(레이어별 hidden-state 유사도)과 behavior alignment(생성 출력의 semantic consistency) 두 축.
핵심 발견: MMSU, OBQA 등 추론 벤치마크에서 modality reasoning gap을 유의미하게 축소. 7B 규모 Speech LLM 중 SOTA.
한계: Method 논문이라 “gap을 줄이는 법”에 집중. 과제 특성에 따른 gap 방향 차이(어떤 과제에서는 audio가 유리할 수 있다는 가능성) 분석 없음.

3. Audio-specific 정보 활용

LISTEN (“Do Audio LLMs Really LISTEN, or Just Transcribe?”) — EACL 2026

우리 Exp C(감정 이해) 방향과 가장 가까운 연구.

방법: LISTEN(Lexical vs. Acoustic Speech Test for Emotion in Narratives) 벤치마크로, 감정 이해에서 lexical cue와 acoustic cue의 기여를 분리. 4가지 통제 조건: (1) Neutral-Text — 텍스트는 중립인데 acoustic cue만 변화, (2) Emotion-Matched — lexical과 acoustic이 일치, (3) Emotion-Mismatched — lexical과 acoustic이 충돌(풍자 같은 상황), (4) Paralinguistic — lexical 내용 없이 감정 전달(웃음, 한숨 등).
모델: 6개 SOTA large audio language model 평가.
핵심 발견: 모든 모델이 일관되게 lexical dominance를 보임 — 즉 “듣는” 게 아니라 “transcribe”하고 있다. Neutral-Text 조건(텍스트가 중립이고 acoustic cue만 감정적)에서 모델은 “neutral”로 예측. Emotion-Matched에서도 개선이 제한적. Emotion-Mismatched(풍자)에서 감정 분류 실패. Paralinguistic(비언어적 감정)에서는 거의 chance level.
데이터: GitHub 공개 (VibeCheck1/LISTEN_full).
한계: “못 듣는다”는 진단만 하고, “어떤 조건에서는 듣는다”는 분석 없음. Omni 모델 간 비교 없음. Output modality 미검토.

Spoken Sarcasm Understanding — arXiv 2025 (2509.15476)

방법: 풍자 탐지에서 text-only vs audio-only vs multimodal 비교. MUStARD++ 벤치마크 등 사용.
핵심 발견: Audio-only 모델(Wav2Vec2.0)이 text-only를 F1 기준 10%+ 앞섬 — 풍자에서는 prosody가 결정적 단서. Text+Audio 결합(76.8% F1)이 audio-only(75.1%)나 text-only(66.4%)보다 높음. Qwen-Omni 같은 omni 모델도 zero-shot으로 competitive.
의의: Audio가 text보다 유리한 과제가 실재함을 보여주는 직접적 증거. 단, 풍자에 한정된 연구이고 체계적 과제 유형 비교는 아님.

MLLMs are Deeply Affected by Modality Bias — arXiv 2025.05

방법: MLLM의 modality bias를 3가지 원인으로 분석.
핵심 발견: (1) Data 특성 — 언어 데이터는 compact/abstract한데 시각 데이터는 redundant/complex해서 학습 역학에 불균형, (2) Imbalanced backbone — pretrained LM이 dominant해서 시각 정보를 underutilize, (3) Training objective — 현재 학습 목표가 cross-modal alignment을 충분히 촉진하지 못해 shortcut learning 유발.
후속 연구: 이 논문에 자극받아 “text bias는 data 특성이 아니라 attention mechanism의 내부 구조에서 기인한다”는 연구(attention key-space 분석)도 나옴.

4. 관련 벤치마크/도구

EmoBox (Interspeech 2024): 다국어 다코퍼스 SER 툴킷. IEMOCAP, MELD, RAVDESS, SAVEE 4개 데이터셋. Intra-corpus/cross-corpus 설정. [GitHub]
VoxEmo (arXiv 2026): 35개 코퍼스, 15개 언어 통합 SER 벤치마크. Speech LLM 평가 프로토콜 표준화. EmoBox baseline 대비 MELD +6.3, M3ED +4.4 개선. 규모 면에서 가장 큼.
CASE: Acoustic-semantic emotion conflict 벤치마크. “괜찮아”를 울면서 말하는 것처럼 텍스트 감정과 음성 감정이 충돌하는 상황. Whisper baseline 47.3% ACC, FAS 모델 59.4%.
KEMDy20 (ETRI): 한국어 감정 멀티모달 데이터셋. 80명(19~39세), 40세션. 음성+텍스트+생체신호(EDA, IBI, 피부온도). 6개 주제 영상 시청 후 자유 대화. [다운로드]
K-EmoCon: 한국어 자연 대화 감정 데이터셋. 16세션 토론. 3관점 annotation(자기, 상대, 외부 관찰자). 최초의 다관점 감정 평가 공개 데이터. [Zenodo]

5. Output modality 관련 기존 연구

기존 연구들은 거의 모두 input modality를 변수로, output은 text 고정이다. Output modality를 다룬 것은 주로 모델 아키텍처 논문:

LLaMA-Omni (ICLR 2025): text와 speech를 동시 생성하는 구조. 하지만 “text output vs speech output 품질 비교”는 아님.
MGM-Omni: “brain-mouth” 설계 — 추론(text)과 발화(speech)를 분리하는 dual-track 아키텍처.
Qwen2.5-Omni / Qwen3-Omni / Qwen3.5-Omni: text+speech 동시 출력 지원. text와 speech를 분리 비교할 수 있는 구조.
관련 발견: 모달리티 확장(speech output 추가)이 core language 능력(IFEval, HumanEval+ 등)을 저하시킨다는 보고 있음. Speech output이 길어지면 hallucination이 증가한다는 관찰도 있음.

핵심 공백: “같은 모델, 같은 인풋인데 text로 답하게 할 때 vs speech로 답하게 할 때 정확도/일관성이 다른가?”를 체계적으로 비교한 연구는 없다.

문헌 공백 (Gap in Literature) 종합

공백	현재 상태	기회
Output modality 변수	모든 기존 연구가 output text 고정	Input × Output full matrix (3×2=6 조건)
Input × Output × Task type 통합	각각 별개 연구 (OmnixR, LISTEN, Beyond Text-Dominance 등)	하나의 프레임워크로 통합
과제 특성에 따른 gap 역전	지식 QA에서 text 우위만 확인. 풍자에서 audio 우위는 개별 연구로만 존재	같은 모델 셋에서 정보 대칭 vs prosody-dependent 과제 직접 비교
Mismatch cost 정량화	“gap이 있다”는 보고만. “얼마나 손해인가”는 미정량	수치로 직접 제시
“Audio LLM이 듣는” 조건	LISTEN이 “못 듣는다” 진단. “어떤 조건에서는 듣는다”는 미탐구	Prosody 과제에서 audio 우위 조건 발굴

연구 방향 설계

핵심 Thesis

Omni 모델의 modality gap은 단순한 bug가 아니라, 과제가 요구하는 정보의 modality-specificity에 의해 방향과 크기가 결정되는 체계적 현상이다. 이를 이해하면 modality routing을 통해 성능을 의도적으로 개선하거나, 잘못된 선택의 cost를 회피할 수 있다.

연구 질문

RQ1. 정보 대칭 과제(지식 QA)에서 input modality × output modality 조합에 따라 성능 갭이 존재하는가?

RQ2. Input-output modality가 일치할 때(예: audio in → speech out) 불일치할 때보다 더 나은 성능을 보이는가? 만약 그렇다면, 이는 내부 처리 경로의 효율 차이로 설명될 수 있는가? (open-source 모델에서 layer별 분석이 가능하다면 이 가설을 직접 검증할 수 있음)

RQ3. 모달리티 고유 정보가 있는 과제(감정 인식, 풍자 탐지 등)에서는 gap 패턴이 역전되는가? — 즉, audio input이 text input보다 우위인 조건이 존재하는가? 그런 Task를 체계적으로 찾아내는 것이 핵심.

RQ4. Modality mismatch의 정량적 cost는 얼마이며, task-aware modality routing은 성능을 얼마나 개선하는가?

가설

H1: 정보 대칭 과제에서는 text in → text out이 최적이며, 다른 조합으로 갈수록 성능이 하락한다.
H2: Input-output modality 일치 시 내부 처리 경로의 효율이 높아져 성능이 향상된다. Open-source 모델(Qwen-Omni 등)에서 layer별 hidden state 분석(CKA 등)으로 이 메커니즘을 직접 검증할 수 있을 것이다.
H3: Prosody-dependent 과제에서는 audio in이 text in을 능가한다. Text로 transcribe하면 핵심 정보(억양, 감정 톤, 망설임 등)가 손실된다. 특히 대화적 맥락에서 감정 간 미묘한 차이를 포착해야 하는 과제에서 이 효과가 극적일 수 있다.

실험 매트릭스

Input modality (3): Text / Image / Audio
Output modality (2): Text / Speech
= 6 조건 per task per model

Image output은 현재 omni 모델이 동일 파이프라인 내에서 지원하지 않으므로 제외. “현재 omni 모델이 지원하는 output modality 기준으로 설계”로 justify.

과제 유형

유형	설명	모달리티 고유 정보	예상 우위
정보 대칭 (Modality-neutral)	동일 명제적 정보를 모달리티 변환. 지식 QA.	없음 — 어떤 모달리티로 넣든 정보량 동일	Text
Audio-advantage	Prosody, 톤, 감정이 핵심 단서인 과제	Prosody, 억양, 감정 톤, 망설임, 풍자	Audio
Image-advantage (optional)	공간 배치, 도표, 시각적 구조가 핵심	공간 관계, 시각적 레이아웃	Image

“모달리티 고유 정보”는 감정만이 아니다:

Audio-specific: 감정/prosody, 풍자/반어(“아 진짜 잘했다~” — 텍스트는 칭찬, 톤은 비꼼), 화자 특성(나이/성별/사투리/건강 상태), 발화 불확실성(망설임 “음…”, 자기 수정, 말더듬 — transcription에서 대부분 소실), 턴테이킹/대화 역학(끼어들기, 침묵 길이, 동시 발화), 환경음(배경으로 맥락 추론), 음악 이해(멜로디, 화성, 리듬)
Image-specific: 공간 배치(물체 상대 위치), 도표/차트(시각적 구조가 핵심), 시각적 유머/밈(이미지-텍스트 조합 의미), 필기/손글씨(스타일 자체가 정보)

데이터

정보 대칭 과제

데이터셋	언어	규모	비고
MMLU-Pro	영어	12K (10지선다)	OmnixR과 동일 소스. 500~1000 샘플 추출. HuggingFace: TIGER-Lab/MMLU-Pro
KMMLU	한국어	-	추가 분석용 (cross-lingual 축). 이미 Exp A에서 사용 중

모달리티 변환:

Text → Image: 텍스트 렌더링 PNG (Pillow 등)
Text → Audio: TTS (영어: OpenAI TTS 등, 한국어: macOS say -v Yuna)
모든 아티팩트는 실험 전 1회 일괄 생성하여 고정. 모델 간 동일 입력 보장.

Audio-advantage 과제

데이터셋	언어	규모	특징
IEMOCAP	영어	~12시간	SER 표준 벤치마크. 대화 기반 감정 인식. 가장 널리 쓰임
MELD	영어	13K utterances	Friends 드라마 기반. 다화자 감정 인식. 규모 큼
KEMDy20	한국어	80명, 40세션	ETRI. 자유 대화 + 감정 + 생체신호
K-EmoCon	한국어	16세션 토론	3관점 감정 annotation. Zenodo 공개

Audio-advantage 과제에서는 원본 음성이 이미 존재하므로, audio → text(ASR transcription)으로 text 조건을 생성. 이를 통해 “transcribe하면 얼마나 손실되는가”를 직접 측정 가능 — 이것이 정보 대칭 과제(text→audio TTS 변환)와 대칭적 설계.

비교 모델

모델	Text+Speech output	비고
GPT-4o	✅	Closed-source, API. 가장 널리 알려진 omni 모델
Gemini 2.5 Pro	✅	Closed-source, API. Audio reasoning 벤치마크 최고 수준
Qwen2.5-Omni	✅ (동시 출력)	Open-source, 로컬 가능. text/speech 분리 비교 용이
Qwen3-Omni	✅	Open-source
Qwen3.5-Omni	✅	Open-source, 최신. Audio에서 Gemini 2.5 Pro/GPT-4o 능가 보고

최소 5개 이상으로 일반화 가능성 확보. Text+Speech output을 모두 지원하는 모델만 선정. (Kanana-o는 API 제약 + 한국어 특화라 메인에서는 제외, 추가 분석으로 활용 가능)

측정 지표

정확도 관련:

모달리티 조건별 정답률 (지식 QA, 4/10지선다)
모달리티 조건별 F1 score (감정 인식)

일관성 관련:

Cross-modal disagreement rate: 동일 질문에 대해 모달리티 조합별 응답 불일치 비율. Exp A에서 67~92%로 관측된 지표.
Kendall’s tau: 모달리티 쌍 간 정오답 패턴 상관. Exp A에서 HCX의 img-aud tau=1.000, Kanana의 txt-aud tau=0.247 등 모델별 내부 경로 구조 차이를 드러낸 지표.

Modality routing 효과:

Modality mismatch cost: 최적 모달리티 대비 비최적 모달리티 사용 시 성능 하락폭 (예: “풍자 탐지에서 audio 대신 text를 쓰면 F1이 X% 하락”)
Task-aware routing gain: 과제 특성에 맞는 모달리티 선택 시 naive 대비 개선폭

Speech output 평가:

Speech output → ASR transcription → text 기준 정확도 비교
또는 직접 semantic similarity 측정
Fair comparison 방법론 검토 필요 (ASR 자체의 에러가 개입하므로)

결론부 방향: “분석 → 직접 실증”

도메인 나열식(“콜센터에서는 이렇고 교육에서는 저렇고”)은 얕아 보임. 대신 실험 안에서 직접 보여주는 구조:

1. Modality routing 실험

같은 과제를 두 가지 전략으로 풀게 하고 성능 비교:

Naive: 아무 모달리티나 사용 (예: 감정 인식인데 text로 transcribe해서 입력)
Informed: 과제 특성에 맞는 모달리티 선택 (감정 인식이면 audio로 입력) → Informed routing이 naive 대비 몇 % 올라가는지 직접 수치로.

2. 잘못된 모달리티 선택의 cost 측정

의도적으로 “나쁜” 모달리티 조합을 쓰게 해서 성능 하락폭을 정량화:

풍자 탐지를 text only로 → F1이 얼마나 떨어지나
지식 QA를 audio로 → 정답률이 얼마나 떨어지나 → “잘못된 모달리티 선택의 대가”를 숫자로 보여주는 거. “Modality mismatch는 평균 X% 성능 하락을 유발한다” 같은 결론.

3. Cascading error 분석

audio in → transcribe(ASR) → text로 처리하는 파이프라인 vs audio in → omni 모델에 직접 처리 → Transcribe 과정에서 정보가 얼마나 손실되는지. 특히 prosody 과제에서 극적일 것. → “Transcribe하면 감정 인식 정확도가 X% 하락한다”는 구체적 수치.

이렇게 하면 결론이 “~하면 좋겠다”가 아니라 실험적 증거가 됨:

“Modality mismatch는 평균 X% 성능 하락을 유발한다”
“특히 prosody 의존 과제에서 text 변환 시 Y% 손실이 발생한다”
“반면 지식 QA에서 audio 입력은 text 대비 Z% 손해이므로 text 경로가 유리하다”

포지셔닝

OmnixR(ICLR 2025)은 input modality를 변수로 두고 “gap이 있다”는 문제를 제기했지만, output은 text로 고정했고 과제 유형도 정보 대칭(지식 QA)에 한정됐다. 본 연구는 여기에 output modality 변수를 추가하고, 모달리티 고유 정보가 있는 과제(감정/prosody 등)를 포함하여 “gap의 방향이 과제 특성에 따라 역전된다”는 점과 “mismatch cost를 정량화할 수 있다”는 점을 보이려 한다.

LISTEN(EACL 2026)은 “Audio LLM이 acoustic cue를 활용하지 못한다”는 진단을 내렸지만, 그것이 모든 조건에서 그런지는 검토하지 않았다. 본 연구는 “어떤 과제에서는 audio가 text보다 유리하다”는 조건을 찾고, 이를 modality routing으로 활용할 수 있음을 실증하려 한다.

논문 장르

분석/평가(evaluation) 논문. OmnixR(ICLR 2025), LISTEN(EACL 2026), REST(arXiv 2025)와 같은 장르. 이 장르가 최근에 잘 받히고 있음. Method 논문(모델 학습/fine-tuning)이 아니므로 API 호출 + 통계 분석으로 충분.

다만 분석만으로 끝나면 “so what?” 리뷰 우려 → 위의 routing 실험 / mismatch cost / cascading error 분석이 이를 방어.

예상 기여

Input × Output × Task type 통합 평가 프레임워크 — 기존 연구가 input modality만 변수로 다룬 것을 output modality와 과제 특성까지 확장한 최초의 체계적 프레임워크.
Modality gap 역전의 실증 — 정보 대칭 과제에서의 text 우위가 prosody-dependent 과제에서 역전됨을 대규모 실험으로 증명.
Modality mismatch cost의 정량화 — 잘못된 모달리티 선택이 성능에 미치는 영향을 구체적 수치로 제시.
Task-aware modality routing의 효과 실증 — 과제 특성에 맞는 모달리티 조합 선택이 naive 접근 대비 유의미한 성능 향상을 가져옴을 실험으로 증명.

RQ1+RQ2+RQ3+RQ4를 하나의 프레임워크로 묶으면 기여가 3~4겹이라 long paper 분량.

예상 논문 구조

Introduction — omni 모델의 “어떤 모달리티든 동일한 품질” 가정에 대한 문제 제기
Related Work — input modality gap (OmnixR, REST), speech-text alignment (EMNLP 2025, Anatomy), modality bias (Beyond Text-Dominance), audio-specific (LISTEN, Sarcasm)
Framework — input × output × task type 평가 프레임워크 제안
Experimental Setup — 데이터, 모델, 모달리티 변환 방법, 평가 지표
Results & Analysis
- RQ1: 정보 대칭 과제에서의 input × output gap 패턴
- RQ2: Input-output modality 일치 효과
- RQ3: Audio-advantage 과제에서의 gap 역전
- RQ4: Modality mismatch cost 및 routing gain 정량화
Discussion — omni 모델 사용자 및 개발자를 위한 함의
Conclusion

Venue

ACL 계열 학회(ACL, EMNLP, NAACL, EACL)가 우선 — evaluation 논문이 잘 받히는 커뮤니티이고, OmnixR(ICLR), LISTEN(EACL) 후속으로 자연스럽다. Audio 축을 강조하면 Interspeech/ICASSP도 가능하지만 우선순위는 아님.

리스크 및 확인 사항

Speech output API 지원 확인: GPT-4o, Gemini, Qwen-Omni에서 프로그래밍적으로 speech output을 받아 평가할 수 있는지. Qwen2.5-Omni는 text+speech 동시 출력이라 분리 비교가 가능할 것으로 보이나, closed-source 모델(GPT-4o, Gemini)은 API 제약 확인 필요.
Speech output 평가 방법론: ASR transcribe 후 text 비교 vs 직접 semantic similarity — 어떤 방법이 fair한지 검토. ASR 자체의 에러가 confound가 될 수 있음.
OmnixR 데이터 공개 여부: 미공개 시 MMLU-Pro에서 직접 모달리티 변환 파이프라인 구축 (이미 Exp A에서 유사한 작업 경험 있음).
실험 규모: 모델 5개 × 6조건 × 2과제 유형 × 500+ 샘플 = API 비용 및 compute 추산. Open-source 모델은 로컬 GPU(RTX 3090 ×4)로 처리 가능하나 closed-source는 비용.
Image-advantage 과제 포함 여부: Scope 결정. 포함 시 기여가 넓어지지만 실험 규모 증가. 메인 스토리가 text-audio 축이면 보조 분석으로 처리하는 것도 옵션.

References

OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities. Burak Suyunu, Hannah Sterz, Yusuf Baran Tanrikulu, Pranav Guruprasad, Kaixin Ma, Jiang Guo. ICLR 2025. [paper] [OpenReview]
Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs. Angela van Sprang et al. arXiv:2512.08923, 2025.12. [paper]
Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models. arXiv:2604.16902, 2026.04. [paper]
Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models. Bajian Xiang, Shuaijiang Zhao, Tingwei Guo, Wei Zou. EMNLP 2025 main. [paper]
Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs. arXiv:2603.01502, 2026.03. [paper]
Closing the Modality Reasoning Gap for Speech Large Language Models. Chaoren Wang et al. arXiv:2601.05543, 2026.01. [paper]
Do Audio LLMs Really LISTEN, or Just Transcribe? Measuring Lexical vs. Acoustic Emotion Cues Reliance. Jingyi Chen, Zhimeng Guo, Jiyun Chun, Pichao Wang, Andrew Perrault, Micha Elsner. EACL 2026. [paper] [GitHub]
Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding. arXiv:2509.15476, 2025. [paper]
MLLMs are Deeply Affected by Modality Bias. arXiv:2505.18657, 2025.05. [paper]
When Audio-LLMs Don’t Listen: A Cross-Linguistic Study of Modality Arbitration. arXiv:2602.11488, 2026.02. [paper]
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark. NeurIPS 2024. [HuggingFace] [GitHub]
EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark. Interspeech 2024. [GitHub]
VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs. arXiv:2603.08936, 2026. [paper]
K-EmoCon, a multimodal sensor dataset for continuous emotion recognition in naturalistic conversations. Park et al. Scientific Data, 2020. [paper] [Zenodo]
KEMDy20: Korean Emotion Multimodal Database in 2020. ETRI. [다운로드]

2026-04-22 작성. 선행연구 서베이 및 연구 방향 초안. 실험 착수 전 검토 단계.