kanana-o modality gap — 외부 피드백 정리

April 22, 2026 3 minute read

연구 방향 설계에 대한 외부 피드백 모음.

피드백 1: “현재 omni 모델이 지원하는 output modality 기준으로 설계”라는 justify가 위험할 수 있다

any-to-any를 지원하는 omni 모델이 있긴 해서 “현재 omni 모델이 지원하는 output modality 기준으로 설계” justify는 위험할수도 있을 것 같습니다(ex. Ming Omni, https://arxiv.org/pdf/2510.24821). 즉 image output까지 지원되는 omni 모델들이 있는 것으로 알고 있습니다.

Ming-Omni처럼 image output까지 지원하는 omni 모델이 있으므로, “현재 모델이 image output을 지원하지 않으니 제외”라는 논거는 리뷰어에게 반박당할 수 있다.

→ 수정된 justify: image output 제외의 근거를 “모델 지원 여부”가 아니라 본질적 이유(답변 형식으로 성립 안 됨, 평가 방법론 부재, 사용 시나리오 불일치)로 세워야 한다. “Image generation은 ‘같은 답변의 다른 모달리티’가 아니라 본질적으로 다른 과제이므로, 본 연구의 input-output modality matching 프레임워크에서는 text와 speech output만을 비교 대상으로 한다.” 이에 대한 조사는 별도 포스트에서 다뤘다.

피드백 2: 추가 선행연구

관련이 있는 것 같은 선행연구가 제가 아는 것들이 좀 더 있습니다.

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models (https://arxiv.org/pdf/2510.15148)

Cross-Modal Consistency in Multimodal Large Language Models (https://arxiv.org/pdf/2411.09273)

XModBench — arXiv:2510.15148

연구 방향 설계에서 놓친 중요한 선행연구.

방법: 61,320개 multiple-choice 문항의 대규모 tri-modal 벤치마크. Context(질문 맥락)와 candidates(선지)의 모달리티를 조합하여 6가지 modality composition을 체계적으로 테스트: A→T, A→V, T→A, T→V, V→A, V→T. 5개 task family(perception, spatial reasoning, temporal reasoning, linguistic understanding, external knowledge).
모델: Gemini 2.5 Pro 등 다수 OLLM 평가.
핵심 발견: 가장 강력한 모델(Gemini 2.5 Pro)조차 (1) spatial/temporal reasoning에서 60% 미만, (2) 같은 정보가 audio로 전달되면 text 대비 성능 급락, (3) vision이 context일 때 text가 context일 때보다 일관성이 낮은 directional imbalance.
데이터 공개: HuggingFace(RyanWW/XModBench), GitHub 공개.
Output modality: text 고정. 6가지 composition은 모두 input 쪽(context와 candidates의 모달리티)만 변수. 모델의 최종 답변은 항상 text selection.
본 연구와의 관계: XModBench는 input 쪽 modality composition을 OmnixR보다 더 세밀하게 다룬다(context vs candidates 분리). 하지만 여전히 output modality는 고정. 우리 연구의 output modality 변수와 과제 특성별 gap 역전은 여전히 차별점.

방법: GPT-4V에서 동일 과제를 vision vs language로 제시했을 때의 일관성을 정량 측정. Parallel vision-language 데이터셋 직접 구축.
핵심 발견: GPT-4V 내부에서 vision과 language modality 간 뚜렷한 inconsistency 존재. “Unified multimodal model”이라는 표현에도 불구하고 모달리티별 성능 차이가 큼.
Output modality: text 고정. Input modality 간 일관성만 측정.
본 연구와의 관계: 2024년 11월 논문으로 이 분야 초기 연구 중 하나. GPT-4V 단일 모델, vision-language 2-way만. 우리 연구는 audio 포함 3-way + output modality + 다수 모델 비교로 확장.

피드백 3: Task 유형 사전 분류가 결론의 tautology로 이어질 수 있다

다양한 Task마다 특정 모달리티에 우세한 세팅이 있을것이고(가설), 모델 돌려봐서 분석을 한 다음에(가설 해결) 최종 방법론 제시는 task 특성에 맞는 모달리티 선택 인것으로 이해했는데

제가 읽은 바로는 task type이 너무 text 우위 / Audio-advantage / image-advantage에 미리 (사전에) 맞춰져있다는 느낌이 들어서 이점이 살짝 아쉬운것같습니다

뭐가 더 좋을까? 아리송한 세팅이 아니라 당연히 오디오와 ASR텍스트를 비교하면 오디오가 좋을 것 같은 task를 사전작업 쳐놓은 느낌….?

핵심 지적은 task 분류 자체가 결론을 미리 가정하고 있다는 점이다. 현재 설계는 “text 우위일 것으로 예상되는 task”와 “audio 우위일 것으로 예상되는 task”를 각각 골라 놓고 실험하므로, 결과가 예상대로 나오는 건 당연하고 “task 특성에 맞는 모달리티 선택이 효과적이다”라는 결론도 순환 논증에 가까워진다. 타당한 비판이다.

개선 방향으로 고려할 것:

예측이 명백하지 않은 경계 task 포함 — 모달리티 우위를 직관적으로 단정하기 어려운 과제를 의도적으로 추가한다. 운율이 의미 전달에 부가적으로만 기여하는 대화, 숫자·표·이미지가 혼재된 문서 문항, 방언 발화 + 한자 지문 같은 혼합 조건 등. 이 경계 영역에서의 결과가 논문의 중심 증거가 되어야 tautology 비판을 피할 수 있다.
Task를 이분 라벨이 아닌 연속 차원으로 분해 — “prosody 의존도”, “시각 레이아웃 의존도” 같은 축으로 점수화하여 task × modality advantage의 관계를 회귀 분석. 라벨이 아니라 차원 점수가 modality gap을 예측한다는 것을 보이면 설계의 타당성이 강화된다.
역방향 접근 — 먼저 같은 task 풀에 대해 모든 모달리티 성능을 무작정 측정한 뒤, 사후적으로 “어떤 task에서 어떤 모달리티가 유리했는지”를 분석. 사전 분류 없이 패턴을 발굴하는 구조로 바꾸면 self-fulfilling 구도에서 벗어난다.
Counterexample을 적극 보고 — “audio 우위가 예상되었는데 text가 이긴 task”, “text 우위가 예상되었는데 image가 이긴 task” 같은 역전 사례를 null 결과로 숨기지 않고 명시. 가설 검증의 강건성을 드러낸다.

최소한 방법론 섹션에 task selection bias를 한계로 명시하고, 위 중 하나(예측 불가 task 포함 또는 dimensional decomposition)를 실제 실험 설계에 반영해야 “당연한 결과를 당연하게 확인한 연구” 비판을 피할 수 있다. 연구 방향 설계의 “과제 유형” 섹션도 이에 맞춰 개편 필요.

피드백 4: 도메인을 좁히고 발화 유형별 모달리티 우위를 분석

task 선택이 핵심. 감정 인식처럼 넓은 스코프보다 일반 대화를 스코프로 잡고, 그 안에서 “이런 발화는 오디오가 좋고, 이런 발화는 텍스트가 좋고”를 분석하는 방향이 좋겠다. 도메인을 좁혀서 발화 유형별 모달리티 우위를 세밀하게 보는 게 더 설득력 있을 것.

→ 피드백 3의 “역방향 접근”과도 맞닿는 조언이다. 넓은 과제 유형을 사전 분류하기보다, 하나의 도메인(예: 일반 대화) 안에서 발화 특성에 따른 모달리티 우위를 사후적으로 발견하는 구조가 tautology 비판도 피하고 분석 깊이도 확보할 수 있다.

연구 방향 설계 선행연구 섹션 업데이트 필요

피드백 2의 두 논문을 연구 방향 설계의 선행연구 서베이에도 추가해야 한다. 특히 XModBench는 OmnixR과 함께 가장 직접적인 선행 연구이므로, input modality gap 측정 섹션에 포함시킬 것.