피드백 2: XModBench·Cross-Modal Consistency와의 차별점

April 27, 2026 3 minute read

연구 방향 설계에 대한 외부 피드백 overview 중 피드백 2(추가 선행연구)를 단독으로 펼친 글. 두 선행연구가 본 연구를 대체하는지 점검한다.

피드백 2 원문

관련이 있는 것 같은 선행연구가 제가 아는 것들이 좀 더 있습니다.

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models (https://arxiv.org/pdf/2510.15148)

Cross-Modal Consistency in Multimodal Large Language Models (https://arxiv.org/pdf/2411.09273)

XModBench — arXiv:2510.15148

연구 방향 설계에서 놓친 중요한 선행연구.

방법: 61,320개 multiple-choice 문항의 대규모 tri-modal 벤치마크. Context(질문 맥락)와 candidates(선지)의 모달리티를 조합하여 6가지 modality composition을 체계적으로 테스트: A→T, A→V, T→A, T→V, V→A, V→T. 5개 task family(perception, spatial reasoning, temporal reasoning, linguistic understanding, external knowledge).
모델: Gemini 2.5 Pro 등 다수 OLLM 평가.
핵심 발견: 가장 강력한 모델(Gemini 2.5 Pro)조차 (1) spatial/temporal reasoning에서 60% 미만, (2) 같은 정보가 audio로 전달되면 text 대비 성능 급락, (3) vision이 context일 때 text가 context일 때보다 일관성이 낮은 directional imbalance.
데이터 공개: HuggingFace(RyanWW/XModBench), GitHub 공개.
Output modality: text 고정. 6가지 composition은 모두 input 쪽(context와 candidates의 모달리티)만 변수. 모델의 최종 답변은 항상 text selection.
본 연구와의 관계: XModBench는 input 쪽 modality composition을 OmnixR보다 더 세밀하게 다룬다(context vs candidates 분리). 하지만 여전히 output modality는 고정. 우리 연구의 output modality 변수와 과제 특성별 gap 역전은 여전히 차별점.

방법: GPT-4V에서 동일 과제를 vision vs language로 제시했을 때의 일관성을 정량 측정. Parallel vision-language 데이터셋 직접 구축.
핵심 발견: GPT-4V 내부에서 vision과 language modality 간 뚜렷한 inconsistency 존재. “Unified multimodal model”이라는 표현에도 불구하고 모달리티별 성능 차이가 큼.
Output modality: text 고정. Input modality 간 일관성만 측정.
본 연구와의 관계: 2024년 11월 논문으로 이 분야 초기 연구 중 하나. GPT-4V 단일 모델, vision-language 2-way만. 우리 연구는 audio 포함 3-way + output modality + 다수 모델 비교로 확장.

검토: 두 선행연구가 본 연구를 대체하는가

차별점 정리

축	XModBench	Cross-Modal Consistency	본 연구
Input modality	A/T/V 3-way	V-L 2-way	A/T/V 3-way
Output modality 변수	❌ text 고정	❌ text 고정	✅ text + speech (6 조건)
Task type 분화	task family 단위 정확도	단일 (vision-language consistency)	✅ modality-neutral vs audio-advantage 직접 대조 → gap 역전 실증
Mismatch cost 정량화	❌	❌	✅
Task-aware routing gain	❌	❌	✅

Contribution은 그대로 살아있음

연구 방향 설계 §예상 기여에 정리한 4개 기여 중 어떤 것도 두 선행연구에 의해 잠식되지 않는다:

Input × Output × Task type 통합 평가 프레임워크 — output modality 변수를 추가한 유일 사례.
Modality gap 역전의 실증 — 정보 대칭(text 우위) → prosody-dependent(audio 우위)의 역전을 같은 모델 셋에서 직접 비교.
Modality mismatch cost 정량화 — “잘못된 모달리티 선택의 대가”를 수치화.
Task-aware modality routing의 효과 실증 — naive 대비 informed routing의 성능 향상을 직접 측정.

XModBench는 (1)의 input 측면을 잘 정리했지만 output 변수가 없고, (2)~(4)는 다루지 않는다. Cross-Modal Consistency는 V-L 2-way·단일 모델에 한정되어 (2)~(4) 모두 미해결.

한국어 축은 메인 contribution이 아님 (정정 메모)

이 글의 초안에서 차별점 표에 “한국어 omni 포함”을 contribution으로 적었던 적이 있는데, 연구 방향 설계 §비교 모델 기준으로 다시 점검하면 한국어는 보조 분석축이지 메인이 아니다:

비교 모델은 GPT-4o, Gemini 2.5 Pro, Qwen2.5/3/3.5-Omni(영어 강한 omni 5개). plan 본문에 “Kanana-o는 API 제약 + 한국어 특화라 메인에서는 제외, 추가 분석으로 활용 가능”이라 명시됨.
데이터 메인은 MMLU-Pro·IEMOCAP·MELD(영어). KMMLU·KEMDy20·K-EmoCon은 “추가 분석 / cross-lingual 축”으로 옵션.
Venue도 ACL 계열 영어 학회 우선.

따라서 두 선행연구 대비 차별점을 주장할 때는 output modality 변수 / task type 분화 / mismatch cost / routing을 전면에 두고, 한국어는 cross-lingual 보조 분석으로만 포지셔닝한다. Exp A/B의 HCX·Kanana 발견은 “동기 / preliminary evidence”로 인용한다.

후속 작업

연구 방향 설계 §선행 연구 서베이 §1. Input modality gap 측정에 XModBench를 OmnixR 다음 항목으로 추가.
같은 섹션에 Cross-Modal Consistency(arXiv:2411.09273)도 초기 연구로 추가(2024.11, GPT-4V 단일).
Related Work 섹션 초안에서 두 논문을 OmnixR과 같은 묶음(input modality gap 측정)으로 인용. 차별점은 위 표를 그대로 반영.

2026-04-27 작성. 피드백 2 검토 단독 정리.