Slow Perception: Letโs Perceive Geometric Figures Step-by-step
Meta info.
- Authors: Haoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang
- Paper: https://arxiv.org/pdf/2412.20631
- Affiliation: Beihang Univ., Stepfun
- Published: December 30, 2024
- Code: https://github.com/Ucas-HaoranWei/Slow-Perception
TL; DR
๊ธฐํ ๋ฌธ์ ํ์ด์ ์์ด์ ๋ชจ๋ธ์ด ์ฒ์ฒํ ๋ณด๊ฒ ํ๋๊ฒ ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค.




Background
visual o1๋ฑ ์๊ฐ ์ถ๋ก ์ ์๋ฑํ๋ค๋ LVLM ์์ํ ๋ฑ์ฅํ๋ค.
Problem States
LVLM์ด ์ฌ์ ํ ๋จ์ ๊ธฐํ ๋ฌธ์ (e.g. ์ ์ด ๋ช ๋ฒ ๊ฒน์น๋๊ฐ?) ๋ฅผ ๋ชปํผ๋ค.
- ๊ณต๊ฐ ๊ด๊ณ ์ดํด๋ ๊ณ ์ฌํ๊ณ accurate copying(strong perception)๋ ๋ชปํจ.
- long visual jumps ๋ฌธ์ (๊ณ์ ์ธ๊ธ๋์ด ์จ, LVLM์ด high concept์ ์ ๋ณด๋ ๊ฒ ๊ฐ์๋ฐ, ๋ถ๋ถ ๋ถ๋ถ์ ๋ชป๋ณด๋ ๋ฌธ์ ์ ์ฐ์ฅ)
Suggestion
์ฌ๋์ฒ๋ผ ๋ํ์ ์์ ๋จ์๋ก ๋๋ ์ ์ธ์ํ๋ Slow Perception ์ ์
- ์ฌ๋์ฒ๋ผ?: perception์ ์ฆ๊ฐ์ ์ธ๊ฒ ์๋๋ผ ์ ์ง์ ์ธ ๊ฒ์ผ๋ก, ์ฌ๋์ ๋ณต์กํ ๋ํ์ ๊ธฐ๋ณธ ๋จ์ํ์ผ๋ก ๋ถํดํ์ฌ ์ดํดํ ํ ํตํฉํ๋ ๊ณผ์ ์ ๊ฑฐ์น๋ค.
- step1 perception decomposition: (๋ณต์กํ ๋ํ ์ดํด ๊ด๋ จ) ์ค์ฒฉ๋ ๋ํ์ ๋จ์ํ์ผ๋ก ๋ถ๋ฆฌ
- step2 perception flow: (์ ์ถ์ ๊ด๋ จ) ๋จ์ ๊ธธ์ด(perceptual ruler)๋งํผ ๋ถ๋ฆฌ ํ ์ต์ข ๊ธธ์ด ์์ธก
Effects
inference time scaling law (์ถ๋ก ์๊ฐ์ ๊ธธ์๋ก ์ข๋ค) ํ์ธ
- Mathvista์ geo subset์ผ๋ก ํ์ธํ ๊ฒฐ๊ณผ ์ ์ ๋ชจ๋ธ์ ์ด๋ฏธ์ง ํ์ฑ ์ ๋ณด๋ฅผ ๋ง๋ถ์์ ๋ ์ ํ๋ 6.73%p ์์น
- ๋จ์๊ธธ์ด๊ฐ ์ค์ด๋ค ์๋ก ์ต์ข ๊ธธ์ด ์์ธก์ ๋์
Personal note. ๋ชจ๋ธ ์๊น์๋ ๋ค๋ฅธ ๋ด์ฉ์ ๊ธฐ์กด ์ฐ๊ตฌ์ ๋น์ทํ ๊ฒ ๊ฐ์๋ฐ, ๋ค์ด๋ฐ์ด ํฅ๋ฏธ๋ฅผ ๋๊ตฌ๋ ์์ผ๋ก ๋ ๊ฒ ๊ฐ๋ค์. ์ต๊ทผ ์ฐ๊ตฌ ํ๋ฆ ์ ์๋๋ ๋ถ๋ถ์ ์ฌ๋ฌ๋ฒ ๋ณด๊ฒ ํ๋ ๋ฐฉ์์ ์ทจํ๋ ๊ฒ ๊ฐ์๋ฐ, ๊ธฐ์ค ๋จ์๋ฅผ ์ฃผ๊ณ ๊ทธ์ ๋ง์ถฐ์ ํ๋ฒ ๋ณด๋๋ผ๋ ์ ๋๋ ์ ์ฃผ์๊น๊ฒ ๋ณด์๋ ๋๋์ผ๋ก ์ดํดํ์ต๋๋ค. ๊ธ์ฃผ ์ฐ๊ตฌ๋ฏธํ ๊ณต์ ๋๋ฆฌ๋ ๊ฑด์ด๋์ ๋ค๋ฅธ ๊ฒฐ๋ก ๊ณต๊ฐ์ถ๋ก ๋ด์ง๋ visual commonsense ๊ด๋ จ ๊ฐ๋ณ๊ฒ ์ฝ์ด๋ณด๊ธฐ ์ข์์ต๋๋ค.