DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding

March 21, 2025 1 minute read

Meta info.

Authors: Xinyu Ma, Ziyang Ding, Zhicong Luo, Chi Chen, Zonghao Guo, Derek F. Wong, Xiaoyi Feng, Maosong Sun
Paper: https://arxiv.org/pdf/2503.12797
Affiliation: Tsinghua Univ., Univ. of Macau
Published: March 17, 2025
Code: https://github.com/thunlp/DeepPerception

TL; DR

MLLMs가 cognitive visual reasoning 하도록 학습하는 DeepPerception 제안+ Knowledge-Intensive Visual Grounding task 소개 (+ KVG-Bench 공개)

Background

MLLM이 아는 건 많아보여도 Visual Reasoning은 잘 안 됨.

단순 zs CoT Prompting으로는 지식 및 분석을 바탕으로 하는 시각추론(=Cognitive Visual Perception)까지는 못함
Fine-grained Visual Perception을 하려면 전문 지식을 결합해서 학습할 필요

Problem States

Knowledge-Intensive Visual Grounding

기존 visual grounding + expert-level knowledge + fine-grained perception

Suggestions

DeepPerception

KVG-Bench(데이터 생성): 기존 FGVC 데이터셋 기반 knowledge-aligned 학습데이터 구축
- 샘플단위로 모델이 분석할만한 데이터로 복잡하게 구성
- e.g., 한 개의 이미지에 동일 카테고리 object 여러개 (강아지 - 불독, 비글, ….) 모델이 차이를 비교하도록 유도
- 10-domain, 1.3K-sample, 531-image, 882-entity
DeepPerception: 2-stage training framework
- SFT w/CoT reasoning: CoT로 단계적인 사고를 배우도록 유도
- RL for Perception-Cognition Synergy: 공간정렬보상(IoU 기반) 과 format reward를 설계해서 시각적 차이를 세밀하게 보도록 유도 (GRPO)

Effects

기존 모델들은 memorize에 의존한다면 deepperception은 지식을 제대로 활용하는 것으로 보임

KVG-Bench results: Table 1
- backbone: InternVL2 / Qwen2-VL 등 7B
- 비교: baseline / SFT / SFT+RL
- DeepPerception은 baseline Qwen2-VL-7B보다 8.08% 향상
- 기존 모델들은 ood 성능 심각한데 제안 방식으로 학습하면 unseen 도메인에서도 성능이 뛰어남
- YOLO-World, G-DINO-1.6-Pro, DINO-X처럼 Object detection 전문 모델보다도 성능 좋았음
FGVR results: Table 2
- dataset: FGVC-Aircraft (비행기 종류) Stanford-Cars (차 모델 종류) 등
- baseline: LLaVA 1.5/Phi-3-Vision/Idefics2/Finedefics/Qwen2VL-7B
- FT Qwen2-VL-7B보다 평균 3.64% 더 높은 성능을 보이는데 단순 이미지 Classification이상으로 인지적 분석을 해서라고 주장
MMBench, MMMU results: Table 3
- dataset: MMBench-V1.1test, MMMUval, AI2D, MathVision
- baseline: Qwen2-VL-7B
- Qwen2VL-7B수준 방어 (드랍되지 않는다 정도)
ablation- 2stage 효과 Table 4
- +CoT-SFT > +2.69%, +GRPO > +5.39%

Personal note. 용어가 살짝 헷갈려서 처음에 읽는데 헤맸는데

Visual Reasoning: 이미지 보고 답하기

Cognitive Visual Perception: +어떤 근거로 결론을 내렸는지 분석 및 사고 과정을 밝혀서 답하기

작년 하반기에 보던 그 visual commonsense쪽 이야기를 해주는줄 알고 봤는데 그런 내용은 아니었어요. 다만 많이 주목받은 논문인 것 같아서 드랍하지 않고 살펴봤는데, NLP에서는 CoT-SFT 하고 RL 붙여주는게 통상적인 흐름인거같은데 multi-modal reasoning에서는 시도되지 않았나보네요. 성능이 많이 좋아지는 것으로 보여요.