5 minute read

Any-to-any 모델(Ming, CoDi-2, NExT-GPT 등)이 이미지 output까지 지원하는데, 이걸 실험에 포함해야 하는지 검토했다.


배경

log-16에서 실험 매트릭스를 input(3) × output(2) = 6 조건으로 설계했다. Output은 text와 speech만 포함하고 image는 제외했는데, 실제로 이미지까지 출력 가능한 any-to-any 모델이 존재한다. 이들을 살펴보고 이미지 output을 실험에 넣을지 판단한다.


Any-to-any 모델 현황

Ming-Omni / Ming-flash-omni 2.0 (inclusionAI)

  • 아키텍처: Ling-2.0 기반 MoE, 100B total / 6B active parameters.
  • 출력: text, speech, image 생성+편집 모두 지원. 통합 end-to-end acoustic 파이프라인(Speech, Audio, Music 단일 채널). 이미지는 high-fidelity text rendering, scene consistency, identity preservation 등.
  • 릴리즈: Ming-flash-omni 2.0은 2026.02.11 공개. Open-source.
  • 특징: 가장 최신이고 가장 포괄적인 any-to-any 모델. visual encyclopedic knowledge, immersive speech synthesis, high-dynamic image generation을 하나의 모델에서 처리.

Ming-Lite-Omni-1.5 (inclusionAI)

  • Ming-Omni의 경량 버전. 이미지 생성 지원.
  • 2025.05.28 공개.

CoDi-2 (ZinengTang) — CVPR 2024

  • 아키텍처: MLLM + diffusion decoder. 이미지/오디오 입출력 모두 가능. Interleaved any-to-any generation.
  • 출력: text, image(Stable Diffusion 기반), audio(diffusion 기반). In-context learning과 multi-round interactive conversation에서 multimodal output.
  • 특징: Subject-driven image generation, vision transformation, audio editing 등 zero-shot 능력. 하지만 2023년 말 설계로 현재 기준으로는 구세대.

Unified-IO-2 — CVPR 2024

  • 아키텍처: 단일 encoder-decoder transformer. Image, text, audio, action을 shared semantic space로 tokenize.
  • 출력: text, image, audio, action. 최초의 autoregressive 방식 any-to-any 모델.
  • 특징: Captioning, instruction following, image editing, object detection, segmentation, surface normal estimation, image-based audio generation 등 다양한 task.

AnyGPT (OpenMOSS-Team)

  • 아키텍처: Discrete sequence modeling. 모든 모달리티를 discrete semantic token으로 압축하여 통합 처리.
  • 출력: text, image, audio — 모두 discrete token 기반 생성.
  • 특징: NExT-GPT, CoDi-2, Unified-IO-2가 별도 pre-trained encoder/decoder를 사용하는 것과 달리, tokenizer 기반 통합 접근. 아키텍처적으로 가장 “순수한” any-to-any.

NExT-GPT

  • 아키텍처: LLM(core) + multimodal adaptor + diffusion decoder. Stable Diffusion(image), Zeroscope(video), AudioLDM(audio)을 LLM에 연결.
  • 출력: text, image, video, audio. 임의 조합의 입출력.
  • 특징: End-to-end 학습. 하지만 diffusion decoder가 외부 모듈이라 내부 표현의 일관성 측면에서는 native omni 모델과 다름.

이미지 output을 실험에 포함할 것인가?

포함하지 않는 이유 (결론)

1. “답변”으로서의 이미지 output이 성립하지 않는다.

Text/speech output은 같은 질문에 대한 답변을 다른 형식으로 제공하는 것이다. “프랑스의 수도는?” → text로 “Paris”, speech로 “Paris”라고 말하기. 두 출력은 동일한 정보를 담고 있으므로 정확도를 직접 비교할 수 있다.

반면 이미지 output은 “질문에 대한 답변을 이미지로 준다”가 아니다. 지식 QA의 정답을 이미지로 출력한다는 것이 의미가 없고, 감정 인식의 결과를 이미지로 표현하는 것도 자연스럽지 않다. 이미지 생성은 본질적으로 다른 종류의 과제(생성/편집)이지 “같은 답변의 다른 모달리티”가 아니다.

2. 평가 방법론이 성립하지 않는다.

  • Text out vs speech out: speech를 ASR로 transcribe하면 text와 직접 비교 가능. 동일한 정확도/F1 지표로 측정.
  • Text out vs image out: 이미지로 출력된 “답변”의 정확도를 어떻게 측정하는가? 이미지-텍스트 매칭? 이건 별도의 평가 모델이 필요해지고, 그 평가 모델 자체의 bias가 confound가 된다.

3. 실제 사용 시나리오와 맞지 않는다.

사용자가 omni 모델에 질문할 때 기대하는 output은 text 아니면 speech다. “답변을 이미지로 달라”는 시나리오가 자연스러운 경우가 거의 없다. 연구의 실용적 함의(modality routing)를 생각하면, text와 speech의 비교가 실질적 가치가 있다.

다만, 이 모델들을 비교 대상으로는 활용할 수 있다

이미지 output을 실험 변수로 넣지는 않되, any-to-any 모델 자체는 평가 대상 모델 풀에 포함 가능하다:

모델 text+speech output 추가 가치
Ming-flash-omni 2.0 MoE 아키텍처, 가장 최신 any-to-any. open-source
NExT-GPT Diffusion hybrid 아키텍처 — native omni와 구조적 차이 비교
AnyGPT Discrete token 기반 — 또 다른 아키텍처 유형

아키텍처 유형이 다양해지면 “modality gap 패턴이 아키텍처에 따라 다른가?”라는 추가 분석 축이 열린다:

  • Native omni (Qwen-Omni): 단일 모델 내 통합
  • Diffusion hybrid (NExT-GPT): LLM + 외부 diffusion decoder
  • MoE (Ming): sparse expert 기반
  • Discrete token (AnyGPT): 모든 모달리티를 discrete sequence로

정리

  • 이미지 output은 실험 변수에서 제외 — 답변 형식으로 성립하지 않고, 평가 방법론도 없으며, 실용적 시나리오와 맞지 않음.
  • Any-to-any 모델은 비교 대상 모델로 활용 가능 — 아키텍처 다양성 확보. 특히 Ming-flash-omni 2.0은 최신 + open-source라 유력 후보.
  • 실험 매트릭스는 input(3) × output(2) = 6 조건 유지 — text/speech output만.

외부 피드백 및 추가 선행연구

피드백 1: “현재 omni 모델이 지원하는 output modality 기준으로 설계”라는 justify가 위험할 수 있다

Ming-Omni처럼 image output까지 지원하는 omni 모델이 있으므로, “현재 모델이 image output을 지원하지 않으니 제외”라는 논거는 리뷰어에게 반박당할 수 있다.

수정된 justify: image output 제외의 근거를 “모델 지원 여부”가 아니라 위에서 정리한 본질적 이유(답변 형식으로 성립 안 됨, 평가 방법론 부재, 사용 시나리오 불일치)로 세워야 한다. “Image generation은 ‘같은 답변의 다른 모달리티’가 아니라 본질적으로 다른 과제이므로, 본 연구의 input-output modality matching 프레임워크에서는 text와 speech output만을 비교 대상으로 한다.”

피드백 2: 추가 선행연구

XModBench — arXiv:2510.15148

log-16에서 놓친 중요한 선행연구.

  • 방법: 61,320개 multiple-choice 문항의 대규모 tri-modal 벤치마크. Context(질문 맥락)와 candidates(선지)의 모달리티를 조합하여 6가지 modality composition을 체계적으로 테스트: A→T, A→V, T→A, T→V, V→A, V→T. 5개 task family(perception, spatial reasoning, temporal reasoning, linguistic understanding, external knowledge).
  • 모델: Gemini 2.5 Pro 등 다수 OLLM 평가.
  • 핵심 발견: 가장 강력한 모델(Gemini 2.5 Pro)조차 (1) spatial/temporal reasoning에서 60% 미만, (2) 같은 정보가 audio로 전달되면 text 대비 성능 급락, (3) vision이 context일 때 text가 context일 때보다 일관성이 낮은 directional imbalance.
  • 데이터 공개: HuggingFace(RyanWW/XModBench), GitHub 공개.
  • Output modality: text 고정. 6가지 composition은 모두 input 쪽(context와 candidates의 모달리티)만 변수. 모델의 최종 답변은 항상 text selection.
  • 본 연구와의 관계: XModBench는 input 쪽 modality composition을 OmnixR보다 더 세밀하게 다룬다(context vs candidates 분리). 하지만 여전히 output modality는 고정. 우리 연구의 output modality 변수와 과제 특성별 gap 역전은 여전히 차별점.

Cross-Modal Consistency in Multimodal Large Language Models — arXiv:2411.09273

  • 방법: GPT-4V에서 동일 과제를 vision vs language로 제시했을 때의 일관성을 정량 측정. Parallel vision-language 데이터셋 직접 구축.
  • 핵심 발견: GPT-4V 내부에서 vision과 language modality 간 뚜렷한 inconsistency 존재. “Unified multimodal model”이라는 표현에도 불구하고 모달리티별 성능 차이가 큼.
  • Output modality: text 고정. Input modality 간 일관성만 측정.
  • 본 연구와의 관계: 2024년 11월 논문으로 이 분야 초기 연구 중 하나. GPT-4V 단일 모델, vision-language 2-way만. 우리 연구는 audio 포함 3-way + output modality + 다수 모델 비교로 확장.

log-16 선행연구 섹션 업데이트 필요

이 두 논문을 log-16의 선행연구 서베이에도 추가해야 한다. 특히 XModBench는 OmnixR과 함께 가장 직접적인 선행 연구이므로, input modality gap 측정 섹션에 포함시킬 것.


References

  • Ming-Omni: A Unified Multimodal Model for Perception and Generation. inclusionAI. arXiv:2506.09344. [paper] [GitHub]
  • Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation. arXiv:2510.24821. [paper] [HuggingFace]
  • CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation. Tang et al. CVPR 2024. [paper] [project]
  • Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action. Lu et al. CVPR 2024. [paper] [project]
  • AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling. arXiv:2402.12226. [paper] [HuggingFace]
  • NExT-GPT: Any-to-Any Multimodal LLM. [paper] [project]
  • XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models. Wang et al. arXiv:2510.15148. [paper] [HuggingFace] [GitHub]
  • Cross-Modal Consistency in Multimodal Large Language Models. arXiv:2411.09273. [paper]

2026-04-22 작성. log-16 보충.