Is the Modality Gap a Bug or a Feature? A Robustness Perspective
- Authors: Rhea Chowers, Udi Barzelay, Oshri Naparstek, Yair Weiss
- Paper: https://arxiv.org/abs/2603.29080
- Affiliation: Hebrew University of Jerusalem, IBM Research
- Published: March 30, 2026
TL; DR
CLIP ๊ณ์ด multi-modal contrastive model์ modality gap์ด robustness๋ฅผ ์ ํ์ํค๋ bug๋ผ๋ ํ๋ ์ด๋ฐ์ ์ด๋ก ์ ์ผ๋ก ์ฆ๋ช
, clean accuracy ์์ค ์์ด robustness๋ฅผ ๊ฐ์ ํ๋ post-processing ์๊ณ ๋ฆฌ์ฆ ์ ์

Background
- multi-modal contrastive model๋ค์ image-text pair๋ฅผ ๊ฐ์ embedding space์ align๋๋๋ก ํ์ตํ๋, modality gap ๋ฐ์
- contrastive loss: ๊ฐ์ pair์ embedding์ ๊ฐ๊น๊ฒ, ๋ค๋ฅธ pair๋ ๋ฉ๊ฒ ๋ง๋๋ ๋ฐฉ์
- ๋ํ ๋ชจ๋ธ: CLIP, SigLIP, MetaCLIP ๋ฑ
- image embedding ๋ถํฌ์ text embedding ๋ถํฌ๊ฐ unit hypersphere ์์์ ๋ช
ํํ ๋ถ๋ฆฌ๋ ์ํ๋ก ์กด์ฌ
Fig 1(left)- ํ์ต ๋ชฉํ(๋ modality๋ฅผ ๊ฒน์น๊ฒ ๋ง๋ค๊ธฐ)์ ์ ๋ฉด์ผ๋ก ๋ชจ์๋๋ ํ์
- contrastive loss: ๊ฐ์ pair์ embedding์ ๊ฐ๊น๊ฒ, ๋ค๋ฅธ pair๋ ๋ฉ๊ฒ ๋ง๋๋ ๋ฐฉ์
- ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ค๋ช
์๋ โ ๊ทธ๋ฌ๋ ์ด๋ ์ค๋ช
๋ ์ถฉ๋ถํ์ง ์๋ค๋ ๋ฐ๋ก ์กด์ฌ
- information imbalance: ์ด๋ฏธ์ง ํ ์ฅ์ ์ฌ๋ฌ caption์ด ๋์๋ ์ ์์ด ํ ์คํธ๊ฐ ๋ ์ถ์์
- dimensionality collapse: contrastive loss ํ์ต ์ค ๊ฐ modality์ ๋ถ์ฐ์ด ์ผ๋ถ ์ฐจ์์๋ง ์ง์ค
- Gap์ downstream ์ฑ๋ฅ ์ํฅ๋ ๋ถ๋ช
ํ โ gap์ ํค์ฐ๋ฉด ๋์์ง๋ ๊ฒฝ์ฐ๋, ์ค์ด๋ฉด ๋์์ง๋ ๊ฒฝ์ฐ๋ ์์
Fig 2
- (๋ณ๊ฐ๋ก) CLIP ๊ณ์ด ๋ชจ๋ธ์ robustness ์ทจ์ฝ์ฑ๋ ์ ์๋ ค์ง ๋ฌธ์
- single pixel shift, caption rephrasing ๋ฑ ์๋ฏธ๋ก ์ ์ผ๋ก ๋์ผํ ๋ณํ์๋ ์์ธก์ด ๋ฌ๋ผ์ง
Fig 1(right) - ์ด ์ทจ์ฝ์ฑ์ด modality gap๊ณผ ์ฐ๊ฒฐ๋๋ค๋ ์ด๋ก ์ ์ค๋ช ์ ์์
- single pixel shift, caption rephrasing ๋ฑ ์๋ฏธ๋ก ์ ์ผ๋ก ๋์ผํ ๋ณํ์๋ ์์ธก์ด ๋ฌ๋ผ์ง
Problem States
robustness ๊ธฐ์ค์ผ๋ก ์๋ ๋ ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ์ ์๋ํ๋ค.
- ์ modality gap์ด ์๊ธฐ๋๊ฐ?
- contrastive loss๋ฅผ minimizeํ๋ฉด ๋ modality๊ฐ ๊ฒน์ณ์ผ ํ๋๋ฐ, ์ค์ gradient descent๋ gap์ด ๋จ์ ์ฑ๋ก ์๋ ด
- dimensionality collapse๊ฐ ์์ธ์ด๋ผ๋ ๊ธฐ์กด ์ค๋ช ์ด ํ์์ถฉ๋ถ์กฐ๊ฑด์ด ์๋
- Gap์ feature์ธ๊ฐ? ์๋๋ฉด bug์ธ๊ฐ?
Fig 2์ฒ๋ผ gap ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ์ ๋ downstream ์ฑ๋ฅ ๋ณํ๊ฐ ๋ชจ๋ธ๋ง๋ค ์ผ๊ด์ฑ ์์- ์ด๋ค ๊ด์ ์์ gap์ ํ๊ฐํด์ผ ํ๋์ง unified framework ๋ถ์ฌ
Suggestions
- modality gap์ด ํด์๋ก embedding perturbation์ ๋ํด nearest neighbor๊ฐ ๋ฐ๋๊ธฐ ์ฝ๊ณ โ robustness ์ ํ โ gap์ bug
- ์ด๋ฅผ ์ด๋ก ์ ์ผ๋ก ์ฆ๋ช , ์ฌํ์ต ์์ด robustness๋ฅผ ๊ฐ์ ํ๋ post-processing ์๊ณ ๋ฆฌ์ฆ ์ ์
ํต์ฌ ๊ฐ๋
- Local gap: ํ๋์ image-text pair ์ฌ์ด์ ๋ฒกํฐ
- Global gap \vec{g}: ๋ modality ํ๊ท ๊ฐ์ ๋ฒกํฐ โ ๋ modality๊ฐ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง ๋ํ๊ฐ์ผ๋ก ํ์ธ
- Global Orthogonality Assumption: ํ์ต์ด ์๋ ดํ ํ \vec{g}๋ ๋ modality ๋ถํฌ ๋ชจ๋์ orthogonal
- (๊ธฐ์กด ์ฐ๊ตฌ ๋ฐ๋ฐ) Dimensionality collapse๋ ํ์์ถฉ๋ถ์กฐ๊ฑด์ด ์๋
- ๊ธฐ์กด ์ฐ๊ตฌ: modality ๋ด ๋ถ์ฐ์ด ์ผ๋ถ ์ฐจ์์๋ง ์ง์ค๋๋ dimensionality collapse๊ฐ gap์ ์์ธ์ด๋ค
- ๋ฐ๋ฐ: ์ง์ง ์์ธ = ์ด๊ธฐ cluster ๋ถ๋ฆฌ + contrastive loss dynamics์ ์กฐํฉ
- isotropic Gaussian ์ด๊ธฐํ์์๋ gap ๋ฐ์
Fig 4 - ์์ ํ dimensionality collapse ์ด๊ธฐํ์์๋ ์คํ๋ ค gap ์์ด ์๋ ด
Fig 11
- isotropic Gaussian ์ด๊ธฐํ์์๋ gap ๋ฐ์
Theorem 3.1: ์ Gap์ด ์๊ธฐ๋? โ Gap ๋ฐฉํฅ์ผ๋ก ๋ถ์ฐ์ด ๋จผ์ ์ค์ด๋ ๋ค
- contrastive loss์ gradient๋ ๋ ๊ฐ์ง force๋ก ๊ตฌ์ฑ
- ๊ฐ yi๋ฅผ ๋์๋๋ xi๋ก ๋น๊ธฐ๋ attractive force
- ๋ค๋ฅธ ์ ๋ค๋ก๋ถํฐ ๋ฐ์ด๋ด๋ repulsive force
- gap ๋ฐฉํฅ์ผ๋ก ๊ฐ๊น์ด ์ ๋ค์ repulsive force๊ฐ attractive force๋ณด๋ค ๊ฐํด์ ธ์ ๋ฐ๋ ค๋จ
- ๊ฒฐ๊ณผ์ ์ผ๋ก ํ์ต ์ด๋ฐ์ gap ๋ฐฉํฅ ๋ถ์ฐ์ด ๋จผ์ ์ถ์
Fig 4,Fig 5- gradient๋ ๊ฐ modality ๋ด ๋ถ์ฐ์ gap vector ๋ฐฉํฅ์ผ๋ก ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ์๋
- ์ฆ yi๋ gap ๋ฐฉํฅ์ผ๋ก ฮผy ์ชฝ์ผ๋ก ์ด๋ (๋ถ์ฐ ์์ถ)
Theorem 3.2: ์ Gap์ด ๋ modality ๋ชจ๋์ orthogonalํ๊ฒ ์๋ ดํ๋๊ฐ?
- ๊ฐ์ : ์ด๋ ์์ ์์ ๋ modality์ ๋ถ์ฐ์ด ์ด๋ค ๋ฐฉํฅ์ผ๋ก 0์ด ๋๊ณ , ์ดํ(ํ์ต ํ๋ฐ๋ถ) softmax assignment matrix๊ฐ doubly stochastic (ํ ํฉ = ์ด ํฉ = 1)์ ๊ทผ์ฌํ๊ฒ ๋๋ฉด
- gradient๊ฐ gap ๋ฐฉํฅ์ผ๋ก๋ 0์ด ๋์ด ์ด๋์ด ๋ฉ์ถค
- ๋๋จธ์ง ๋ฐฉํฅ์ผ๋ก๋ง ์ ๋ ฌ์ด ๊ณ์ ์งํ
- ๊ฒฐ๊ณผ: \vec{g}๊ฐ ๋ modality ๋ชจ๋์ ์์ง์ธ ์ํ๋ก ์๋ ด
Fig 4,Fig 6Fig 4: toy setting์์์ dynamics ์๊ฐํ โ ์ด๊ธฐ tight cluster โ gap ๋ฐฉํฅ ๋ถ์ฐ ์์ถ โ gap๊ณผ ์์ง์ธ ๋ฐฉํฅ์ผ๋ก๋ง ์ ๋ ฌ ์๋ ดFig 6: ์ค์ CLIP ํ์ต ๊ณผ์ ์์๋ Si^x, Si^y โ 1 ๋ฐ ์ด๊ธฐ cluster ๋ถ๋ฆฌ ์กฐ๊ฑด ํ์ธ
Theorem 3.4: Gap์ด ํด์๋ก Robustness๋ฅผ ๋ฎ์ถ๋ค
- Robustness ์ ์: embedding์ noise๋ฅผ ๊ฐํ์ ๋ nearest neighbor๊ฐ ๋ณํ์ง ์์ ํ๋ฅ
- Orthogonality assumption ํ์์, y๋ฅผ global gap vector \vec{g} ๋ฐฉํฅ์ผ๋ก X ์ชฝ์ผ๋ก ์ด๋์ํค๋ฉด robustness ์ฆ๊ฐ
Fig 7์ง๊ด: image๊ฐ text์์ ๋ฉ์๋ก (= gap ํด์๋ก)- decision boundary์ ์์ ํ์ (์: text embedding์ ์์ noise)์๋ classification์ด ๋ฐ๋๊ธฐ ์ฌ์
- image๊ฐ text ๊ฐ๊น์ด ๋ถ์ผ๋ฉด ๊ฐ์ noise์๋ ํจ์ฌ ์์ ์
Theorem 3.5: Gap์ ์ค์ฌ๋ Clean Accuracy๋ ์ ์ง๋๋ค
- \vec{v}๊ฐ modality์ affine subspace์ ์์ง์ด๋ฉด, ๊ทธ ๋ฐฉํฅ์ผ๋ก modality๋ฅผ ์ด๋์์ผ๋ ๋ชจ๋ ์ ๊ฐ ์๋ ๊ฑฐ๋ฆฌ ์์๊ฐ ๋ณด์กด (cross-modal nearest neighbor ๊ตฌ์กฐ ๋ณด์กด)
- Theorem 3.4 + 3.5 ์กฐํฉ: gap์ ์ค์ด๋ฉด robustness๋ ๋์์ง๊ณ clean accuracy๋ ๊ทธ๋๋ก
Post-processing Gap Closure
- Gap์ ์ค์ด๋ modality์ ์์ง์ธ ๋ฐฉํฅ ์ฑ๋ถ๋ง ๊ณจ๋ผ์ ๊ทธ ๋ฐฉํฅ์ผ๋ก๋ง ์ด๋
- (1) \vec{g} ์ค์์ retrieval ๋์ modality์ ์ฃผ์ ๋ฐฉํฅ V๋ฅผ PCA๋ก ๊ณ์ฐ
- (2) \vec{g}๋ฅผ orthogonal complement์ projection โ \vec{g}์์ ๊ทธ ๋ฐฉํฅ ์ฑ๋ถ ์ ๊ฑฐ
- (3) modality๋ฅผ \vec{g} ๋ฐฉํฅ์ผ๋ก ์ด๋
- ์ฌํ์ต ๋ถํ์, inference ์ embedding space์ post-hoc ์ ์ฉ ๊ฐ๋ฅ, ๋ชจ๋ cross-modal nearest neighbor task์ ๋ฒ์ฉ ์ ์ฉ ๊ฐ๋ฅ
Effects
- Experimental setup
- ๋ชจ๋ธ: CLIP (ViT-B/16, ViT-L/14), SigLIP, MetaCLIP
- ๋ฐ์ดํฐ์ : ImageNet, CIFAR10/100, MS-COCO, A-OKVQA (multiple choice VQA)
- embedding ์์ฑ: openclip ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- noise ์ข ๋ฅ: Gaussian noise ($\eta \sim \mathcal{N}(0, \sigma^2 I)$), quantization noise, text rephrasing
- ํ๊ฐ: zero-shot classification accuracy, R@1 (retrieval), VQA accuracy, robustness (nearest neighbor ์ ์ง์จ)
- Results
Fig 8Controlled Gaussian noise: gap์ ์ค์ผ์๋ก robustness ๋จ์กฐ ์ฆ๊ฐ, accuracy๋ ๊ฑฐ์ ๋ณํ ์์- CLIP, SigLIP ๋ฑ ์ฌ๋ฌ ๋ชจ๋ธ + CIFAR10/100, A-OKVQA ๋ฑ ์ฌ๋ฌ task์์ ์ผ๊ด๋ ํจํด
- Theorem 3.5 ์์ธก๊ณผ ์ ํํ ์ผ์น
Fig 9Quantization noise: gap์ ์ค์ธ ๋ค quantizeํ๋ฉด robustness ๋ํญ ๊ฐ์- RAG์ฒ๋ผ embedding์ ๋ฏธ๋ฆฌ ์ ์ฅํ๋ ์ธํ ์์ ์ค์ฉ์ ์๋ฏธ ์์
- quantization noise๋ zero-mean์ด ์๋ ์ ์์ด quantized space์์ gap์ ์ต์ํํ๋ ๊ฒ์ด ๋ ํจ๊ณผ์
Fig 10Text rephrasing: ์ด๋ก ๊ฐ์ (zero-mean, uncorrelated noise)์ ๋ง์กฑํ์ง ์๋ ์ธํ ์ด์ง๋ง- gap์ ์ค์ด๋ฉด A-OKVQA rephrasing accuracy ์ ์๋ฏธํ๊ฒ ํฅ์, clean accuracy ์ ์ง
Fig 14๋ค์ํ noise distribution: Studentโs-t, Uniform, Laplacian ๋ถํฌ์์๋ robustness ์ผ๊ด๋๊ฒ ๊ฐ์- zero-mean + ์ฐจ์ ๊ฐ uncorrelated ์กฐ๊ฑด๋ง ๋ง์กฑํ๋ฉด ๋ถํฌ ์ข ๋ฅ ๋ฌด๊ดํ๊ฒ Theorem 3.4 ์ฑ๋ฆฝ
Personal note. kakao ์จ๋ผ์ธ ๋ฐ์ ์์ ์ ์ต์ ์ ์ด๋๋ชจ๋ธ๋ค์ด ์ถ๋ ฅ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ํฌํจํ์ง ์์์ง ์ง์๋๋ ธ๋ค๊ฐ ๊ถ๊ธํด์ ์ฐพ์๋ณธ ์ต์ ๋ ผ๋ฌธ์ ๋๋ค. modality gap์ด ์ค๋ซ๋์ ๊ด์ฐฐ๋๋๋ฐ๋ โ์โ์ โ๋ฌด์โ์ ๋ํ ์ด๋ก ์ ์ค๋ช ์ด ์์๋ค๋ ๊ฒ ์์ผ์ค๋ฝ์ต๋๋ค๋ง, ์ฐ๊ตฌ์์๋ robustness๋ผ๋ ์๋์ ์ผ๋ก ๋ช ํํ ๋ ์ฆ(?)๋ฅผ ๋์ ํ๋ฉด์ gap์ bug๋ก ๊ท์ , ๊ทธ ์ด์ ๋ฅผ training dynamics๋ก ์ค๋ช ํ๋ ๋ฐ๊น์ง ์ด์ด์ง๋ ํ๋ฆ์ด ๊น๋ํฉ๋๋ค. ํนํ gap์ ์ค์ฌ๋ nearest neighbor ๊ตฌ์กฐ๊ฐ ์ ์ง๋๋ค (Theorem 3.5) ๊ฐ ํต์ฌ์ด๊ณ , ์ด๊ฒ ์์ด์ผ ์๊ณ ๋ฆฌ์ฆ์ด ์ ๋นํ๋ฉ๋๋ค. post-processing๋ง์ผ๋ก robustness๋ฅผ ๊ฐ์ ํ ์ ์๋ค๋ ๊ฒฐ๋ก ์ ์ค์ฉ์ ์ผ๋ก๋ ๋งค๋ ฅ์ ์ด์ง๋ง, rephrasing ๊ฐ์ input-space noise๋ ์ด๋ก ๊ฐ์ ์ ๊นจ๋๋ฐ๋ ๊ฒฝํ์ ์ผ๋ก ์ ๋์ํ๋ค๋ ๊ฒ ๋ญ๊ฐ ํ ๊ฐ๊ธฐ๋ ํ๋ฉด์๋ ์ ๋ ์คํ๋ ค ์ด ์ญ์ ์ค์ฉ์ ์ด๋ผ๋ ์ธ์์ ๋๋ค. ์ ๊ด์ฌ์, ์ด ๋ฌธ์ ๊ฐ CLIP์๋ง ๊ตญํ๋ ๊ฑด ์๋๋ฐ, ์ด๋ก ์ ์ผ๋ก๋ contrastive loss๋ก ํ์ต๋ ๋ชจ๋ multi-modal model์ ํด๋นํ๊ณ ์ค์ ๋ก SigLIP, MetaCLIP ๋ฑ ๊ณ์ด์์๋ ๋์ผํ๊ฒ ํ์ธ๋ฉ๋๋ค. LLaVA ๊ฐ์ generative ๊ณ์ด์ ์ด๋ก ์ ์ฉ ๋์ ๋ฐ์ด๊ธด ํ๋ฐ ๋ด๋ถ์ ์ผ๋ก CLIP encoder๋ฅผ ๊ทธ๋๋ก ์ฐ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ encoder ์์ค์์๋ gap์ด ์ด๋ฏธ ์กด์ฌํ ์ ์๋ค๊ณ ๋ด ๋๋ค. RAG๋ embedding ๊ธฐ๋ฐ retrieval์ ์ฐ๋ ์์คํ ์ด๋ผ๋ฉด ๊ณ์ด ๋ฌด๊ดํ๊ฒ ์ด post-processing์ ๊ณ ๋ คํด๋ณผ ๋งํด๋ณด์ ๋๋ค. ๋ณ๊ฑด์ด์ง๋ง ์นด๋๋ ์ด๋๋ชจ๋ธ ํ์ฉํด์๋ ๋น์ทํ ๋ฌธ์ ํ์์ ๋ํ ํ์ธ์ ๋๋ฅผ ์งํํด๋ด์ง ํ๋ค๊ณ ๋๋๋๋ค.