3 minute read

Any-to-any 모델(Ming, CoDi-2, NExT-GPT 등)이 이미지 output까지 지원하는데, 이걸 실험에 포함해야 하는지 검토했다. 외부 피드백은 별도 정리.


선행연구 조사 보충: Any-to-any 모델

연구 방향 설계에서 실험 매트릭스를 input(3) × output(2) = 6 조건으로 설계했다. Output은 text와 speech만 포함하고 image는 제외했는데, 실제로 이미지까지 출력 가능한 any-to-any 모델이 존재한다. 이들을 살펴보고 이미지 output을 실험에 넣을지 판단한다.


Any-to-any 모델 현황

Ming-Omni / Ming-flash-omni 2.0 (inclusionAI)

  • 아키텍처: Ling-2.0 기반 MoE, 100B total / 6B active parameters.
  • 출력: text, speech, image 생성+편집 모두 지원. 통합 end-to-end acoustic 파이프라인(Speech, Audio, Music 단일 채널). 이미지는 high-fidelity text rendering, scene consistency, identity preservation 등.
  • 릴리즈: Ming-flash-omni 2.0은 2026.02.11 공개. Open-source.
  • 특징: 가장 최신이고 가장 포괄적인 any-to-any 모델. visual encyclopedic knowledge, immersive speech synthesis, high-dynamic image generation을 하나의 모델에서 처리.

Ming-Lite-Omni-1.5 (inclusionAI)

  • Ming-Omni의 경량 버전. 이미지 생성 지원.
  • 2025.05.28 공개.

CoDi-2 (ZinengTang) — CVPR 2024

  • 아키텍처: MLLM + diffusion decoder. 이미지/오디오 입출력 모두 가능. Interleaved any-to-any generation.
  • 출력: text, image(Stable Diffusion 기반), audio(diffusion 기반). In-context learning과 multi-round interactive conversation에서 multimodal output.
  • 특징: Subject-driven image generation, vision transformation, audio editing 등 zero-shot 능력. 하지만 2023년 말 설계로 현재 기준으로는 구세대.

Unified-IO-2 — CVPR 2024

  • 아키텍처: 단일 encoder-decoder transformer. Image, text, audio, action을 shared semantic space로 tokenize.
  • 출력: text, image, audio, action. 최초의 autoregressive 방식 any-to-any 모델.
  • 특징: Captioning, instruction following, image editing, object detection, segmentation, surface normal estimation, image-based audio generation 등 다양한 task.

AnyGPT (OpenMOSS-Team)

  • 아키텍처: Discrete sequence modeling. 모든 모달리티를 discrete semantic token으로 압축하여 통합 처리.
  • 출력: text, image, audio — 모두 discrete token 기반 생성.
  • 특징: NExT-GPT, CoDi-2, Unified-IO-2가 별도 pre-trained encoder/decoder를 사용하는 것과 달리, tokenizer 기반 통합 접근. 아키텍처적으로 가장 “순수한” any-to-any.

NExT-GPT

  • 아키텍처: LLM(core) + multimodal adaptor + diffusion decoder. Stable Diffusion(image), Zeroscope(video), AudioLDM(audio)을 LLM에 연결.
  • 출력: text, image, video, audio. 임의 조합의 입출력.
  • 특징: End-to-end 학습. 하지만 diffusion decoder가 외부 모듈이라 내부 표현의 일관성 측면에서는 native omni 모델과 다름.

이미지 output을 실험에 포함할 것인가?

포함하지 않는 이유 (결론)

1. “답변”으로서의 이미지 output이 성립하지 않는다.

Text/speech output은 같은 질문에 대한 답변을 다른 형식으로 제공하는 것이다. “프랑스의 수도는?” → text로 “Paris”, speech로 “Paris”라고 말하기. 두 출력은 동일한 정보를 담고 있으므로 정확도를 직접 비교할 수 있다.

반면 이미지 output은 “질문에 대한 답변을 이미지로 준다”가 아니다. 지식 QA의 정답을 이미지로 출력한다는 것이 의미가 없고, 감정 인식의 결과를 이미지로 표현하는 것도 자연스럽지 않다. 이미지 생성은 본질적으로 다른 종류의 과제(생성/편집)이지 “같은 답변의 다른 모달리티”가 아니다.

2. 평가 방법론이 성립하지 않는다.

  • Text out vs speech out: speech를 ASR로 transcribe하면 text와 직접 비교 가능. 동일한 정확도/F1 지표로 측정.
  • Text out vs image out: 이미지로 출력된 “답변”의 정확도를 어떻게 측정하는가? 이미지-텍스트 매칭? 이건 별도의 평가 모델이 필요해지고, 그 평가 모델 자체의 bias가 confound가 된다.

3. 실제 사용 시나리오와 맞지 않는다.

사용자가 omni 모델에 질문할 때 기대하는 output은 text 아니면 speech다. “답변을 이미지로 달라”는 시나리오가 자연스러운 경우가 거의 없다. 연구의 실용적 함의(modality routing)를 생각하면, text와 speech의 비교가 실질적 가치가 있다.

다만, 이 모델들을 비교 대상으로는 활용할 수 있다

이미지 output을 실험 변수로 넣지는 않되, any-to-any 모델 자체는 평가 대상 모델 풀에 포함 가능하다:

모델 text+speech output 추가 가치
Ming-flash-omni 2.0 MoE 아키텍처, 가장 최신 any-to-any. open-source
NExT-GPT Diffusion hybrid 아키텍처 — native omni와 구조적 차이 비교
AnyGPT Discrete token 기반 — 또 다른 아키텍처 유형

아키텍처 유형이 다양해지면 “modality gap 패턴이 아키텍처에 따라 다른가?”라는 추가 분석 축이 열린다:

  • Native omni (Qwen-Omni): 단일 모델 내 통합
  • Diffusion hybrid (NExT-GPT): LLM + 외부 diffusion decoder
  • MoE (Ming): sparse expert 기반
  • Discrete token (AnyGPT): 모든 모달리티를 discrete sequence로

정리

  • 이미지 output은 실험 변수에서 제외 — 답변 형식으로 성립하지 않고, 평가 방법론도 없으며, 실용적 시나리오와 맞지 않음.
  • Any-to-any 모델은 비교 대상 모델로 활용 가능 — 아키텍처 다양성 확보. 특히 Ming-flash-omni 2.0은 최신 + open-source라 유력 후보.
  • 실험 매트릭스는 input(3) × output(2) = 6 조건 유지 — text/speech output만.

References

  • Ming-Omni: A Unified Multimodal Model for Perception and Generation. inclusionAI. arXiv:2506.09344. [paper] [GitHub]
  • Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation. arXiv:2510.24821. [paper] [HuggingFace]
  • CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation. Tang et al. CVPR 2024. [paper] [project]
  • Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action. Lu et al. CVPR 2024. [paper] [project]
  • AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling. arXiv:2402.12226. [paper] [HuggingFace]
  • NExT-GPT: Any-to-Any Multimodal LLM. [paper] [project]
  • XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models. Wang et al. arXiv:2510.15148. [paper] [HuggingFace] [GitHub]
  • Cross-Modal Consistency in Multimodal Large Language Models. arXiv:2411.09273. [paper]

2026-04-22 작성. 연구 방향 설계 보충.