Is the Modality Gap a Bug or a Feature? A Robustness Perspective

April 3, 2026 5 minute read

Meta info.

Authors: Rhea Chowers, Udi Barzelay, Oshri Naparstek, Yair Weiss
Paper: https://arxiv.org/abs/2603.29080
Affiliation: Hebrew University of Jerusalem, IBM Research
Published: March 30, 2026

TL; DR

CLIP 계열 multi-modal contrastive model의 modality gap이 robustness를 저하시키는 bug라는 프레이밍을 이론적으로 증명, clean accuracy 손실 없이 robustness를 개선하는 post-processing 알고리즘 제안

Figure 1: CLIP MS-COCO embedding 분포 및 caption rephrasing에 의한 misclassification 예시 Figure 2: gap 조절 alpha에 따른 downstream 성능 변화 Figure 3: near-zero loss 솔루션들 Figure 4: training dynamics에서 gap 형성 과정 Figure 5: S_i^y 분포와 gap 방향 분산 압축 과정 Figure 7: modality gap과 robustness 관계 illustration Figure 8: Gaussian noise 하에서 gap 조절에 따른 accuracy vs robustness Figure 9: quantization robustness Figure 10: text rephrasing에서의 accuracy 변화 Figure 14: 다양한 noise distribution에서의 robustness 개선

Background

multi-modal contrastive model들은 image-text pair를 같은 embedding space에 align되도록 학습하나, modality gap 발생
- contrastive loss: 같은 pair의 embedding은 가깝게, 다른 pair는 멀게 만드는 방식
  - 대표 모델: CLIP, SigLIP, MetaCLIP 등
- image embedding 분포와 text embedding 분포가 unit hypersphere 위에서 명확히 분리된 상태로 존재 Fig 1 (left)
  - 학습 목표(두 modality를 겹치게 만들기)와 정면으로 모순되는 현상
기존 연구들의 설명 시도 — 그러나 어느 설명도 충분하지 않다는 반례 존재
- information imbalance: 이미지 한 장에 여러 caption이 대응될 수 있어 텍스트가 더 추상적
- dimensionality collapse: contrastive loss 학습 중 각 modality의 분산이 일부 차원에만 집중
- Gap의 downstream 성능 영향도 불명확 — gap을 키우면 나아지는 경우도, 줄이면 나아지는 경우도 있음 Fig 2
(별개로) CLIP 계열 모델의 robustness 취약성도 잘 알려진 문제
- single pixel shift, caption rephrasing 등 의미론적으로 동일한 변화에도 예측이 달라짐 Fig 1 (right)
- 이 취약성이 modality gap과 연결된다는 이론적 설명은 없음

Problem States

robustness 기준으로 아래 두 문제에 대한 해결을 시도한다.

왜 modality gap이 생기는가?
- contrastive loss를 minimize하면 두 modality가 겹쳐야 하는데, 실제 gradient descent는 gap이 남은 채로 수렴
- dimensionality collapse가 원인이라는 기존 설명이 필요충분조건이 아님
Gap은 feature인가? 아니면 bug인가?
- Fig 2처럼 gap 크기를 조절했을 때 downstream 성능 변화가 모델마다 일관성 없음
- 어떤 관점에서 gap을 평가해야 하는지 unified framework 부재

Suggestions

modality gap이 클수록 embedding perturbation에 대해 nearest neighbor가 바뀌기 쉽고 → robustness 저하 → gap은 bug
이를 이론적으로 증명, 재학습 없이 robustness를 개선하는 post-processing 알고리즘 제안

핵심 개념

Local gap: 하나의 image-text pair 사이의 벡터
Global gap \vec{g}: 두 modality 평균 간의 벡터 — 두 modality가 얼마나 떨어져 있는지 대표값으로 확인
Global Orthogonality Assumption: 학습이 수렴한 후 \vec{g}는 두 modality 분포 모두에 orthogonal
(기존 연구 반박) Dimensionality collapse는 필요충분조건이 아님
- 기존 연구: modality 내 분산이 일부 차원에만 집중되는 dimensionality collapse가 gap의 원인이다
- 반박: 진짜 원인 = 초기 cluster 분리 + contrastive loss dynamics의 조합
  - isotropic Gaussian 초기화에서도 gap 발생 Fig 4
  - 완전한 dimensionality collapse 초기화에서는 오히려 gap 없이 수렴 Fig 11

Theorem 3.1: 왜 Gap이 생기나? — Gap 방향으로 분산이 먼저 줄어든다

contrastive loss의 gradient는 두 가지 force로 구성
- 각 yi를 대응되는 xi로 당기는 attractive force
- 다른 점들로부터 밀어내는 repulsive force
gap 방향으로 가까운 점들은 repulsive force가 attractive force보다 강해져서 밀려남
결과적으로 학습 초반에 gap 방향 분산이 먼저 축소 Fig 4, Fig 5
- gradient는 각 modality 내 분산을 gap vector 방향으로 줄이는 방향으로 작동
- 즉 yi는 gap 방향으로 μy 쪽으로 이동 (분산 압축)

Theorem 3.2: 왜 Gap이 두 modality 모두에 orthogonal하게 수렴하는가?

가정: 어느 시점에서 두 modality의 분산이 어떤 방향으로 0이 되고, 이후(학습 후반부) softmax assignment matrix가 doubly stochastic (행 합 = 열 합 = 1)에 근사하게 되면
- gradient가 gap 방향으로는 0이 되어 이동이 멈춤
- 나머지 방향으로만 정렬이 계속 진행
결과: \vec{g}가 두 modality 모두에 수직인 상태로 수렴 Fig 4, Fig 6
- Fig 4: toy setting에서의 dynamics 시각화 — 초기 tight cluster → gap 방향 분산 압축 → gap과 수직인 방향으로만 정렬 수렴
- Fig 6: 실제 CLIP 학습 과정에서도 Si^x, Si^y → 1 및 초기 cluster 분리 조건 확인

Theorem 3.4: Gap이 클수록 Robustness를 낮춘다

Robustness 정의: embedding에 noise를 가했을 때 nearest neighbor가 변하지 않을 확률
Orthogonality assumption 하에서, y를 global gap vector \vec{g} 방향으로 X 쪽으로 이동시키면 robustness 증가
Fig 7 직관: image가 text에서 멀수록 (= gap 클수록)
- decision boundary의 작은 회전 (예: text embedding에 작은 noise)에도 classification이 바뀌기 쉬움
- image가 text 가까이 붙으면 같은 noise에도 훨씬 안정적

Theorem 3.5: Gap을 줄여도 Clean Accuracy는 유지된다

\vec{v}가 modality의 affine subspace에 수직이면, 그 방향으로 modality를 이동시켜도 모든 점 간 상대 거리 순서가 보존 (cross-modal nearest neighbor 구조 보존)
Theorem 3.4 + 3.5 조합: gap을 줄이면 robustness는 높아지고 clean accuracy는 그대로

Post-processing Gap Closure

Gap을 줄이되 modality에 수직인 방향 성분만 골라서 그 방향으로만 이동
- (1) \vec{g} 중에서 retrieval 대상 modality의 주요 방향 V를 PCA로 계산
- (2) \vec{g}를 orthogonal complement에 projection — \vec{g}에서 그 방향 성분 제거
- (3) modality를 \vec{g} 방향으로 이동
재학습 불필요, inference 전 embedding space에 post-hoc 적용 가능, 모든 cross-modal nearest neighbor task에 범용 적용 가능

Effects

Experimental setup
- 모델: CLIP (ViT-B/16, ViT-L/14), SigLIP, MetaCLIP
- 데이터셋: ImageNet, CIFAR10/100, MS-COCO, A-OKVQA (multiple choice VQA)
- embedding 생성: openclip 라이브러리
- noise 종류: Gaussian noise ($\eta \sim \mathcal{N}(0, \sigma^2 I)$), quantization noise, text rephrasing
- 평가: zero-shot classification accuracy, R@1 (retrieval), VQA accuracy, robustness (nearest neighbor 유지율)
Results
- Fig 8 Controlled Gaussian noise: gap을 줄일수록 robustness 단조 증가, accuracy는 거의 변화 없음
  - CLIP, SigLIP 등 여러 모델 + CIFAR10/100, A-OKVQA 등 여러 task에서 일관된 패턴
  - Theorem 3.5 예측과 정확히 일치
- Fig 9 Quantization noise: gap을 줄인 뒤 quantize하면 robustness 대폭 개선
  - RAG처럼 embedding을 미리 저장하는 세팅에서 실용적 의미 있음
  - quantization noise는 zero-mean이 아닐 수 있어 quantized space에서 gap을 최소화하는 것이 더 효과적
- Fig 10 Text rephrasing: 이론 가정(zero-mean, uncorrelated noise)을 만족하지 않는 세팅이지만
  - gap을 줄이면 A-OKVQA rephrasing accuracy 유의미하게 향상, clean accuracy 유지
- Fig 14 다양한 noise distribution: Student’s-t, Uniform, Laplacian 분포에서도 robustness 일관되게 개선
  - zero-mean + 차원 간 uncorrelated 조건만 만족하면 분포 종류 무관하게 Theorem 3.4 성립

Personal note. kakao 온라인 밋업에서 왜 최신의 옴니모델들이 출력으로 이미지를 포함하지 않은지 질의드렸다가 궁금해서 찾아본 최신 논문입니다. modality gap이 오랫동안 관찰됐는데도 “왜”와 “무엇”에 대한 이론적 설명이 없었다는 게 새삼스럽습니다만, 연구에서는 robustness라는 상대적으로 명확한 렌즈(?)를 도입하면서 gap을 bug로 규정, 그 이유를 training dynamics로 설명하는 데까지 이어지는 흐름이 깔끔합니다. 특히 gap을 줄여도 nearest neighbor 구조가 유지된다 (Theorem 3.5) 가 핵심이고, 이게 있어야 알고리즘이 정당화됩니다. post-processing만으로 robustness를 개선할 수 있다는 결론은 실용적으로도 매력적이지만, rephrasing 같은 input-space noise는 이론 가정을 깨는데도 경험적으로 잘 동작한다는 것 뭔가 흠같기도 하면서도 저는 오히려 이 역시 실용적이라는 인상입니다. 제 관심은, 이 문제가 CLIP에만 국한된 건 아닌데, 이론적으로는 contrastive loss로 학습된 모든 multi-modal model에 해당하고 실제로 SigLIP, MetaCLIP 등 계열에서도 동일하게 확인됩니다. LLaVA 같은 generative 계열은 이론 적용 대상 밖이긴 한데 내부적으로 CLIP encoder를 그대로 쓰는 경우가 많아 encoder 수준에서는 gap이 이미 존재할 수 있다고 봅니다. RAG나 embedding 기반 retrieval을 쓰는 시스템이라면 계열 무관하게 이 post-processing을 고려해볼 만해보입니다. 별건이지만 카나나 옴니모델 활용해서도 비슷한 문제 현상에 대한 확인정도를 진행해봄직 하다고 느낍니다.