TL;DR. CLIP류 multi-modal 모델에서 image / text 임베딩이 공간상 분리돼 있는 modality gap은 robustness 관점에서 bug다, gap이 클수록 임베딩에 약한 perturbation을 줬을 때 모델 출력이 잘 흔들린다. 한 modality를 다른 modality 평균 쪽으로 옮기는 간단한 post-processing만으로 clean accuracy 손실 없이 robustness가 올라간다.
| 모델 | 크기 | 한국어 | 비고 |
|---|---|---|---|
| Kanana-o | 11.6B | KR | 베타 · 1일 20 call |
| HyperCLOVA X | 8B | KR | 한국어 특화 |
| Qwen2.5-Omni | 7B | · | 비특화 baseline |
| MiniCPM-o | 8B | · | 비특화 baseline |
text · 텍스트 렌더 PNG · TTS WAV 동일 문항을 입력 모달만 바꿔 평가. 풀셋 n=1,100 (HCX/MiniCPM/Qwen) · Kanana는 30샘플 서브셋.
text-bare (텍스트만) · image-bare (텍스트 렌더 PNG) ·
audio_neutral (무도의 TTS) · audio_emotion (감정이 실린 원본 발화).
Track B는 다시 감정 분류와 응답 생성 두 sub-task로 나뉨.
데이터 준비 단계 · 본 배치는 발표 후 진행 예정.
| 모델 | text | image | audio | 불일치 |
|---|---|---|---|---|
| HyperCLOVA X n=1,100 | 49.4 | 27.8 | 27.8 | 21.6 |
| MiniCPM-o n=1,100 | 36.5 | 23.7 | 24.5 | 12.8 |
| Qwen2.5-Omni n=1,100 | 33.0 | 29.1 | 27.5 | 3.9 |
| HyperCLOVA X n=54 | 51.9 | 35.2 | 35.2 | 35.2 |
| Kanana-o n=58 | 37.0 | 24.1 | 25.9 | 37.9 |
| MiniCPM-o n=54 | 29.6 | 24.1 | 24.1 | 43.5 |
| Qwen2.5-Omni n=54 | 22.2 | 27.8 | 24.1 | 38.9 |
HCX는 text에서 49.4%로 다른 셋(33–37%)을 13–16%p 앞서지만, image · audio로 가면 27.8/27.8, 비특화 모델과 거의 같다.
"한국어 특화"라는 라벨이 modality 일반화에는 직접 전이되지 않는다는 첫 신호.
text · image · audio_neutral, 입력 modality만 바꾼 3개 condition. modality별 정답률 평균은 text 37% · image 24% · audio 26%로 비슷하게 나오지만, 같은 문항이 modality마다 답이 달라지는 비율은 37.9%.
즉, 평균은 비슷해도 modality별로 맞히는 문항이 겹치지 않음, "평균 한 줄"로는 보이지 않던 변동.
| 축 | n | 대표 라벨 |
|---|---|---|
| 기쁨 | 10 | proud · joyful · trusting · hopeful · caring |
| 슬픔 | 10 | sad · lonely · sentimental · guilty · ashamed |
| 분노 | 10 | angry · furious · annoyed · disgusted · jealous |
| 중립/불안 | 10 | anticipating · apprehensive · afraid · prepared |
| 정 (情) | 8 | 한국 고유 · 따뜻하고 그리운 톤 |
| 한 (恨) | 8 | 한국 고유 · 깊고 먹먹한 톤 |
Kanana TTS로 각 샘플당 2종(neutral / emotion-tone) 오디오 생성. 56샘플 × 2 = 112개 WAV 완료.
감정 분류는 Kanana-o 제외 3모델(HCX · Qwen · MiniCPM) 스코어 도출 완료.
응답 생성은 LaaJ judge 설계까지 마침, 채점 콜은 아직 미실행.
| 모델 | text | image | a_neutral | a_emotion |
|---|---|---|---|---|
| HyperCLOVA X 한국어 특화 | 33.9 | 17.9 | 17.9 | 17.9 |
| Qwen2.5-Omni 비특화 | 37.5 | 30.4 | 32.1 | 33.9 |
| MiniCPM-o 비특화 | 37.5 | 21.4 | 37.5 | 46.4 |
| Kanana-o 한국어 특화 · 미진행 | , | , | , | , |
a_emotion 46.4% > text 37.5%. 슬픔 text 2/10 → a_emotion 6/10.
image·audio는 56/56 모두 "중립"으로 디폴트-답 → modality 종속.
갭 4%p, 운율 효과 미세. 단 a_emotion 중립 0/10, trade-off 존재.
한국어 우위가 text 안에만 갇히는 HCX, 음성 단서로 +9%p 회수하는 MiniCPM, 같은 문항이 모달리티마다 38% 비율로 답이 갈리는 현상, 셋 다 modality gap이 task 정보 구조에 따라 방향이 뒤집히는 현상이라는 새 연구의 첫 신호.
이를 제대로 측정하려면 input × output × task type 통합 프레임워크가 필요 → REMODE.
"task가 요구하는 정보의 modality-specificity에 따라 gap의 방향과 크기가 결정된다."
자료: plan §핵심 주장
| # | 구분 | 현재 상태 |
|---|---|---|
| 1 | Output modality 변수 | 모든 선행연구가 output을 text로 고정 |
| 2 | Input × Output × Task type 통합 | 각 축은 별개 연구로만 다뤄짐, 통합 평가 부재 |
| 3 | 과제 특성별 gap 역전 | 풍자 audio 우위 등 개별 보고만 있음, 같은 모델 셋으로 직접 비교 없음 |
| 4 | Mismatch cost 정량화 | "있다"는 정성 보고만, 비용을 수치로 잡은 연구 없음 |
| 5 | Audio LLM이 청취 단서를 쓰는 조건 | LISTEN 등은 "못 쓴다"는 실패 진단까지, 어떤 조건에서 쓰게 되는지는 미답 |
| 논문 | 연도 | 한 줄 요약 | 커버 | 미커버 |
|---|---|---|---|---|
| OmnixR | ICLR 2025 | 실제·합성 omni 입력으로 LMM 추론 일관성 평가, gap 존재 입증 | #3 부분 | #1·#2·#4·#5 |
| XModBench | arXiv 2025.10 | input modality 5종 × 과제 그리드, modality별 정확도 비대칭 측정 | #2 부분 | #1·#3·#4·#5 |
| REST | arXiv 2025.12 | 같은 의미를 modality만 바꿔 반복 질의, 응답 일관성으로 gap 정량화 | #3 | #1·#2·#4·#5 |
| CMC | arXiv 2024.11 | Cross-Modal Consistency · 동일 질문 modality 변환 시 응답 변화율 측정 | #3 | #1·#2·#4·#5 |
| Beyond Text-Dominance | arXiv 2026.04 | text 우위 가정 비판, 과제별로 modality 선호가 갈리는 사례 보고 | #3 | #1·#2·#4·#5 |
| 논문 | 연도 | 한 줄 요약 | 커버 | 미커버 |
|---|---|---|---|---|
| Alignment Path | EMNLP 2025 | speech-text 내부 정렬 경로 분석, audio encoder 표현이 어디서 텍스트와 정합되는지 추적 | #5 부분 | #1·#2·#3·#4 |
| Anatomy | arXiv 2026.03 | audio LM 내부 표현 해부, 음성 단서가 어떤 layer에서 보존/손실되는지 분석 | #5 부분 | #1·#2·#3·#4 |
| TARS | arXiv 2026.01 | speech-text 정렬 학습 기법, audio-only 단서를 위한 표현 강화 | #5 | #1·#2·#3·#4 |
| LISTEN | EACL 2026 | 현 omni 모델의 audio 청취 실패 패턴 진단, 음성 단서 무시 사례 정리 | #5 진단 | #1·#2·#3·#4 |
| Sarcasm | arXiv 2025.09 | 비꼬임 인식에서 음성 단서가 결정적인 사례, modality 종속 과제 예시 | #3 사례 | #1·#2·#4·#5 |
input × output 조합별 정확도 차이를 통제된 비교로 측정.
audio in → speech out이 mismatch 조합보다 안정적인가. open-source 모델 CKA로 내부 처리 효율 직접 검증 가능.
감정·풍자 등 음성 단서 의존 과제에서 modality-neutral과 정반대 우열이 나타나는가.
비최적 조합 사용 시 비용은 얼마이며, task-aware routing이 그 비용을 얼마나 회복하는가.
주장, 정답에 추가 단서(음·이미지)가 필요 없는 지식형 QA는, text 입력·text 출력 조합이 가장 정확.
근거, 텍스트는 모델이 가장 많이 학습한 통로이자, 다른 모달리티는 결국 텍스트 표현으로 정렬해서 풀어야 함.
측정, KMMLU 한·영을 4 variants × 모델로 돌려 정확도를 직접 비교.
prelim → 본 측정 · Part 1은 한국어(KMMLU·HRM8K)로만 봤음. 이미 text 우위 확인됨 → 본 연구는 영어 지식셋(MMLU·MMLU-Pro 등)으로 확장해 modality-neutral 가정의 일반성을 본다.
주장, input과 output이 같은 modality(예: text→text, audio→audio)일 때, 내부 표현이 더 정렬되어 있고 추가 변환 비용이 적음.
근거, 모달이 다르면 모델이 내부에서 한 번 더 변환·정렬하는 cost를 지불, 그 흔적이 layer 표현에 남을 것.
측정, open-source 모델(Qwen·MiniCPM)의 layer-wise CKA로 일치 / 불일치 조합 간 표현 유사도를 비교.
prelim → 본 측정 · Part 1은 입력 정확도까지만 보고 내부 표현은 못 봤음. 본 연구에서 처음으로 layer 단위 처리 cost 자체를 측정해, 입력 정확도 뒤의 메커니즘을 검증.
주장, 감정·풍자처럼 운율(말투·억양)이 의미를 좌우하는 과제에서는, audio 입력이 text 입력(=ASR transcribe된 글)보다 정확.
근거, text로 변환하는 순간 화자의 톤·길이·강세가 사라짐. 이 손실은 단순 정성 보고로만 있었음.
측정, KoED(한국어) + 영어 감정·풍자 셋(MELD·MUStARD 등)에서 a_emotion vs text 정확도 차로 손실량을 직접 정량화.
prelim → 본 측정 · Part 1 KoED 56샘플에서 MiniCPM이 a_emotion +9%p 회수를 보여줬음 → 첫 양성 신호. 본 연구는 영어로 확장하고 표본을 키워 reversal이 언어와 무관한 현상인지 확인.
| OUT \ IN | text in | image in | audio in |
|---|---|---|---|
| text out | ① | ② | ③ |
| speech out | ④ | ⑤ | ⑥ (I-O match) |
| 라벨 | 예시 데이터셋 | 의미 |
|---|---|---|
| modality-neutral | MMLU-Pro 지식 QA | 입력 modality와 무관하게 정답 동일 |
| audio-advantage | IEMOCAP / MELD 감정 | 말투·억양이 정답을 좌우 |
| image-advantage | 차트 QA 류 (보류) | 그림이 정답을 좌우 · 본 발표 미포함 |
"audio가 유리할 것이라 미리 분류한 묶음에서 audio가 이겼다"는 결론은 라벨 정의의 반복일 뿐. 측정된 gap이 modality 차이인지, 분류 기준에서 나온 결과인지 구분 불가.
각 task에 지각 단서 · 운율 의존 · 기호 추론 · 외부 지식 등 요인별 점수를 부여. 같은 데이터셋도 "운율 0.8 / 기호 0.2"처럼 좌표로 표현.
→ modality gap을 요인의 함수로 회귀해, gap이 어떤 요인과 정렬되는지 직접 확인. 요인 후보·점수 기준은 미정, Appendix · F3.
| 변환 | 도구 | 측정 포인트 |
|---|---|---|
| text → image | Pillow 렌더 PNG | OCR 한계를 통제하기 위해 동일 폰트·크기로 렌더링, modality 차이만 격리 |
| text → audio | OpenAI TTS / say -v Yuna | 운율 평탄(중립 TTS) vs 감정 합성을 분리, 말투 단서가 정답에 미치는 영향 측정 |
| audio → text | ASR (Whisper 등) | transcribe 손실량 직접 측정, audio→text 우회 경로의 정보 손실을 정량화 |
| 모델 | 분류 | 출력 modality | 비고 |
|---|---|---|---|
| GPT-4o | 메인 | text · speech | API 안정 |
| Gemini 2.5 Pro | 메인 | text · speech | API 안정 |
| Qwen2.5-Omni | 메인 | text · speech | open-source · CKA 가능 |
| Qwen3-Omni | 메인 | text · speech | open-source |
| Qwen3.5-Omni | 메인 | text · speech | open-source |
| Kanana-o | preliminary | text · speech | API 제약(20/일) + 한국어 특화 → 메인 제외, Part 1 자료로 |
| HCX-SEED-Omni | drop 후보 | text · speech | 한국어 특화, 영어 성능 저하 우려 |
| 추가 분석 옵션 · Ming-flash-omni 2.0 (MoE) / NExT-GPT (diffusion hybrid) / AnyGPT (discrete token) → 아키텍처 유형이 gap 패턴에 영향? | |||
fair comparison 방법론은 plan 단계에서 미해결. open issue로 정직하게 공시, Q&A 시 토론 가능.
Output modality 변수화가 unique. 선행연구는 모두 text 고정.
modality-neutral text 우위 → 음성 단서 의존 audio 우위 패턴을 같은 모델 셋에서 직접 측정.
"있다"는 정성 보고를 비용 수치로.
routing이 mismatch cost를 얼마나 회복하는가, 실증.
| 슬롯 | 근거 |
|---|---|
| ACL evaluation (1순위) | OmnixR ICLR · LISTEN EACL · REST arXiv 후속 · long paper 분량 |
| Interspeech / ICASSP | audio 축 강조 시 가능, 우선순위 차순위 |
| # | 피드백 요지 | 답변 전략 | 상태 |
|---|---|---|---|
| F1 | any-to-any 모델까지 범위에 넣어야 하는가 | 이미지 output 제외 justify · 현 omni 동일 파이프라인 미지원 | 정리됨 |
| F2 | XModBench / Cross-Modal Consistency와 어떻게 다른가 | output 변수 + 과제별 역전 + mismatch cost가 unique | 정리됨 |
| F3 | 결과를 가정한 분류 · 평가 task 자체가 모달리티에 종속 | Kanana 4 variants가 이미 차원 분해의 부분 구현 · 라벨 분류 → 차원 점수 표로 갈아엎기 | 핵심 · 2장 |
| F4 | 역방향 접근 (output → input 추론) | 본 발표 범위 밖, 추후 별도로 정리할 방향성으로 소개 | outline 단계 |
5모델 모두 안정 지원. output 변수로 다루기에 충분한 통제 가능.
XModBench 등은 input modality 변경에 집중. 본 연구는 output까지 직접 변수화해 input × output 그리드 측정.
모달리티 우열이 과제에 따라 뒤집히는 패턴(말투 단서가 중요한 과제 vs. 텍스트 비중 큰 과제 등)을 직접 측정 대상으로 설정.
입력과 출력 modality가 어긋날 때 발생하는 비용을 정량화. 단순 정답률을 넘어 "어떻게 틀리는가"까지 측정.
"modality A에서 정답률 70%, B에서 50%"라고 비교할 때, task 자체가 한 modality에 편향되어 있으면 결과는 모델 능력이 아니라 task 정의를 측정하고 있는 것. 분류 기준이 결과를 미리 가정하는 셈.
Kanana 실험의 text-bare / image-bare / audio_neutral / audio_emotion은 단순 "모달리티 4종"이 아니라 (기호적 vs. 지각적) × (말투 단서 유무)의 차원 분해.
비판은 옳음. 동시에 우리 설계는 이미 그 비판이 요구하는 방향으로 부분 이동 중.
| plan 섹션 | 원안 | 개정 후 |
|---|---|---|
| §과제 유형 | 라벨 묶음 (modality-neutral / audio-advantage 등) | 요인 점수 표, task별 좌표 |
| §risk | 일반 risk 목록 | "결과를 가정한 분류"를 risk #1로 명시 · 완화책으로 요인표 제시 |
| §평가 지표 | 정답률 단일 지표 | 요인별 점수 + mismatch cost 함께 보고 |