DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding
Meta info.
- Authors: Xinyu Ma, Ziyang Ding, Zhicong Luo, Chi Chen, Zonghao Guo, Derek F. Wong, Xiaoyi Feng, Maosong Sun
- Paper: https://arxiv.org/pdf/2503.12797
- Affiliation: Tsinghua Univ., Univ. of Macau
- Published: March 17, 2025
- Code: https://github.com/thunlp/DeepPerception
TL; DR
MLLMs๊ฐ cognitive visual reasoning ํ๋๋ก ํ์ตํ๋ DeepPerception ์ ์+ Knowledge-Intensive Visual Grounding task ์๊ฐ (+ KVG-Bench ๊ณต๊ฐ)




Background
MLLM์ด ์๋ ๊ฑด ๋ง์๋ณด์ฌ๋ Visual Reasoning์ ์ ์ ๋จ.
- ๋จ์ zs CoT Prompting์ผ๋ก๋ ์ง์ ๋ฐ ๋ถ์์ ๋ฐํ์ผ๋ก ํ๋ ์๊ฐ์ถ๋ก (=Cognitive Visual Perception)๊น์ง๋ ๋ชปํจ
- Fine-grained Visual Perception์ ํ๋ ค๋ฉด ์ ๋ฌธ ์ง์์ ๊ฒฐํฉํด์ ํ์ตํ ํ์
Problem States
Knowledge-Intensive Visual Grounding
- ๊ธฐ์กด visual grounding + expert-level knowledge + fine-grained perception
Suggestions
DeepPerception
- KVG-Bench(๋ฐ์ดํฐ ์์ฑ): ๊ธฐ์กด FGVC ๋ฐ์ดํฐ์
๊ธฐ๋ฐ knowledge-aligned ํ์ต๋ฐ์ดํฐ ๊ตฌ์ถ
- ์ํ๋จ์๋ก ๋ชจ๋ธ์ด ๋ถ์ํ ๋งํ ๋ฐ์ดํฐ๋ก ๋ณต์กํ๊ฒ ๊ตฌ์ฑ
- e.g., ํ ๊ฐ์ ์ด๋ฏธ์ง์ ๋์ผ ์นดํ ๊ณ ๋ฆฌ object ์ฌ๋ฌ๊ฐ (๊ฐ์์ง - ๋ถ๋ , ๋น๊ธ, โฆ.) ๋ชจ๋ธ์ด ์ฐจ์ด๋ฅผ ๋น๊ตํ๋๋ก ์ ๋
- 10-domain, 1.3K-sample, 531-image, 882-entity
- DeepPerception: 2-stage training framework
- SFT w/CoT reasoning: CoT๋ก ๋จ๊ณ์ ์ธ ์ฌ๊ณ ๋ฅผ ๋ฐฐ์ฐ๋๋ก ์ ๋
- RL for Perception-Cognition Synergy: ๊ณต๊ฐ์ ๋ ฌ๋ณด์(IoU ๊ธฐ๋ฐ) ๊ณผ format reward๋ฅผ ์ค๊ณํด์ ์๊ฐ์ ์ฐจ์ด๋ฅผ ์ธ๋ฐํ๊ฒ ๋ณด๋๋ก ์ ๋ (GRPO)
Effects
๊ธฐ์กด ๋ชจ๋ธ๋ค์ memorize์ ์์กดํ๋ค๋ฉด deepperception์ ์ง์์ ์ ๋๋ก ํ์ฉํ๋ ๊ฒ์ผ๋ก ๋ณด์
- KVG-Bench results:ย
Table 1- backbone: InternVL2 / Qwen2-VL ๋ฑ 7B
- ๋น๊ต: baseline / SFT / SFT+RL
- DeepPerception์ baseline Qwen2-VL-7B๋ณด๋ค 8.08% ํฅ์
- ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ood ์ฑ๋ฅ ์ฌ๊ฐํ๋ฐ ์ ์ ๋ฐฉ์์ผ๋ก ํ์ตํ๋ฉด unseen ๋๋ฉ์ธ์์๋ ์ฑ๋ฅ์ด ๋ฐ์ด๋จ
- YOLO-World, G-DINO-1.6-Pro, DINO-X์ฒ๋ผ Object detection ์ ๋ฌธ ๋ชจ๋ธ๋ณด๋ค๋ ์ฑ๋ฅ ์ข์์
- FGVR results:ย
Table 2- dataset: FGVC-Aircraft (๋นํ๊ธฐ ์ข ๋ฅ) Stanford-Cars (์ฐจ ๋ชจ๋ธ ์ข ๋ฅ) ๋ฑ
- baseline: LLaVA 1.5/Phi-3-Vision/Idefics2/Finedefics/Qwen2VL-7B
- FT Qwen2-VL-7B๋ณด๋ค ํ๊ท 3.64% ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋๋ฐ ๋จ์ ์ด๋ฏธ์ง Classification์ด์์ผ๋ก ์ธ์ง์ ๋ถ์์ ํด์๋ผ๊ณ ์ฃผ์ฅ
- MMBench, MMMU results:ย
Table 3- dataset: MMBench-V1.1test, MMMUval, AI2D, MathVision
- baseline: Qwen2-VL-7B
- Qwen2VL-7B์์ค ๋ฐฉ์ด (๋๋๋์ง ์๋๋ค ์ ๋)
- ablation- 2stage ํจ๊ณผย
Table 4- +CoT-SFT > +2.69%, +GRPO > +5.39%
Personal note. ์ฉ์ด๊ฐ ์ด์ง ํท๊ฐ๋ ค์ ์ฒ์์ ์ฝ๋๋ฐ ํค๋งธ๋๋ฐ
- Visual Reasoning: ์ด๋ฏธ์ง ๋ณด๊ณ ๋ตํ๊ธฐ
- Cognitive Visual Perception: +์ด๋ค ๊ทผ๊ฑฐ๋ก ๊ฒฐ๋ก ์ ๋ด๋ ธ๋์ง ๋ถ์ ๋ฐ ์ฌ๊ณ ๊ณผ์ ์ ๋ฐํ์ ๋ตํ๊ธฐ
์๋ ํ๋ฐ๊ธฐ์ ๋ณด๋ ๊ทธ visual commonsense์ชฝ ์ด์ผ๊ธฐ๋ฅผ ํด์ฃผ๋์ค ์๊ณ ๋ดค๋๋ฐ ๊ทธ๋ฐ ๋ด์ฉ์ ์๋์์ด์. ๋ค๋ง ๋ง์ด ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ์ธ ๊ฒ ๊ฐ์์ ๋๋ํ์ง ์๊ณ ์ดํด๋ดค๋๋ฐ, NLP์์๋ CoT-SFT ํ๊ณ RL ๋ถ์ฌ์ฃผ๋๊ฒ ํต์์ ์ธ ํ๋ฆ์ธ๊ฑฐ๊ฐ์๋ฐ multi-modal reasoning์์๋ ์๋๋์ง ์์๋๋ณด๋ค์. ์ฑ๋ฅ์ด ๋ง์ด ์ข์์ง๋ ๊ฒ์ผ๋ก ๋ณด์ฌ์.