피드백 2: XModBench·Cross-Modal Consistency와의 차별점
연구 방향 설계에 대한 외부 피드백 overview 중 피드백 2(추가 선행연구)를 단독으로 펼친 글. 두 선행연구가 본 연구를 대체하는지 점검한다.
피드백 2 원문
관련이 있는 것 같은 선행연구가 제가 아는 것들이 좀 더 있습니다.
- XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models (https://arxiv.org/pdf/2510.15148)
- Cross-Modal Consistency in Multimodal Large Language Models (https://arxiv.org/pdf/2411.09273)
XModBench — arXiv:2510.15148
연구 방향 설계에서 놓친 중요한 선행연구.
- 방법: 61,320개 multiple-choice 문항의 대규모 tri-modal 벤치마크. Context(질문 맥락)와 candidates(선지)의 모달리티를 조합하여 6가지 modality composition을 체계적으로 테스트: A→T, A→V, T→A, T→V, V→A, V→T. 5개 task family(perception, spatial reasoning, temporal reasoning, linguistic understanding, external knowledge).
- 모델: Gemini 2.5 Pro 등 다수 OLLM 평가.
- 핵심 발견: 가장 강력한 모델(Gemini 2.5 Pro)조차 (1) spatial/temporal reasoning에서 60% 미만, (2) 같은 정보가 audio로 전달되면 text 대비 성능 급락, (3) vision이 context일 때 text가 context일 때보다 일관성이 낮은 directional imbalance.
- 데이터 공개: HuggingFace(RyanWW/XModBench), GitHub 공개.
- Output modality: text 고정. 6가지 composition은 모두 input 쪽(context와 candidates의 모달리티)만 변수. 모델의 최종 답변은 항상 text selection.
- 본 연구와의 관계: XModBench는 input 쪽 modality composition을 OmnixR보다 더 세밀하게 다룬다(context vs candidates 분리). 하지만 여전히 output modality는 고정. 우리 연구의 output modality 변수와 과제 특성별 gap 역전은 여전히 차별점.
Cross-Modal Consistency in Multimodal Large Language Models — arXiv:2411.09273
- 방법: GPT-4V에서 동일 과제를 vision vs language로 제시했을 때의 일관성을 정량 측정. Parallel vision-language 데이터셋 직접 구축.
- 핵심 발견: GPT-4V 내부에서 vision과 language modality 간 뚜렷한 inconsistency 존재. “Unified multimodal model”이라는 표현에도 불구하고 모달리티별 성능 차이가 큼.
- Output modality: text 고정. Input modality 간 일관성만 측정.
- 본 연구와의 관계: 2024년 11월 논문으로 이 분야 초기 연구 중 하나. GPT-4V 단일 모델, vision-language 2-way만. 우리 연구는 audio 포함 3-way + output modality + 다수 모델 비교로 확장.
검토: 두 선행연구가 본 연구를 대체하는가
차별점 정리
| 축 | XModBench | Cross-Modal Consistency | 본 연구 |
|---|---|---|---|
| Input modality | A/T/V 3-way | V-L 2-way | A/T/V 3-way |
| Output modality 변수 | ❌ text 고정 | ❌ text 고정 | ✅ text + speech (6 조건) |
| Task type 분화 | task family 단위 정확도 | 단일 (vision-language consistency) | ✅ modality-neutral vs audio-advantage 직접 대조 → gap 역전 실증 |
| Mismatch cost 정량화 | ❌ | ❌ | ✅ |
| Task-aware routing gain | ❌ | ❌ | ✅ |
Contribution은 그대로 살아있음
연구 방향 설계 §예상 기여에 정리한 4개 기여 중 어떤 것도 두 선행연구에 의해 잠식되지 않는다:
- Input × Output × Task type 통합 평가 프레임워크 — output modality 변수를 추가한 유일 사례.
- Modality gap 역전의 실증 — 정보 대칭(text 우위) → prosody-dependent(audio 우위)의 역전을 같은 모델 셋에서 직접 비교.
- Modality mismatch cost 정량화 — “잘못된 모달리티 선택의 대가”를 수치화.
- Task-aware modality routing의 효과 실증 — naive 대비 informed routing의 성능 향상을 직접 측정.
XModBench는 (1)의 input 측면을 잘 정리했지만 output 변수가 없고, (2)~(4)는 다루지 않는다. Cross-Modal Consistency는 V-L 2-way·단일 모델에 한정되어 (2)~(4) 모두 미해결.
한국어 축은 메인 contribution이 아님 (정정 메모)
이 글의 초안에서 차별점 표에 “한국어 omni 포함”을 contribution으로 적었던 적이 있는데, 연구 방향 설계 §비교 모델 기준으로 다시 점검하면 한국어는 보조 분석축이지 메인이 아니다:
- 비교 모델은 GPT-4o, Gemini 2.5 Pro, Qwen2.5/3/3.5-Omni(영어 강한 omni 5개). plan 본문에 “Kanana-o는 API 제약 + 한국어 특화라 메인에서는 제외, 추가 분석으로 활용 가능”이라 명시됨.
- 데이터 메인은 MMLU-Pro·IEMOCAP·MELD(영어). KMMLU·KEMDy20·K-EmoCon은 “추가 분석 / cross-lingual 축”으로 옵션.
- Venue도 ACL 계열 영어 학회 우선.
따라서 두 선행연구 대비 차별점을 주장할 때는 output modality 변수 / task type 분화 / mismatch cost / routing을 전면에 두고, 한국어는 cross-lingual 보조 분석으로만 포지셔닝한다. Exp A/B의 HCX·Kanana 발견은 “동기 / preliminary evidence”로 인용한다.
후속 작업
- 연구 방향 설계 §선행 연구 서베이 §1. Input modality gap 측정에 XModBench를 OmnixR 다음 항목으로 추가.
- 같은 섹션에 Cross-Modal Consistency(arXiv:2411.09273)도 초기 연구로 추가(2024.11, GPT-4V 단일).
- Related Work 섹션 초안에서 두 논문을 OmnixR과 같은 묶음(input modality gap 측정)으로 인용. 차별점은 위 표를 그대로 반영.
2026-04-27 작성. 피드백 2 검토 단독 정리.