1 minute read

Meta info.

TL; DR

๊ธฐํ•˜ ๋ฌธ์ œ ํ’€์ด์— ์žˆ์–ด์„œ ๋ชจ๋ธ์ด ์ฒœ์ฒœํžˆ ๋ณด๊ฒŒ ํ•˜๋Š”๊ฒŒ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋„์›€์ด ๋œ๋‹ค.

image.png

image.png

image.png

image.png

Background

visual o1๋“ฑ ์‹œ๊ฐ ์ถ”๋ก ์— ์›”๋“ฑํ•˜๋‹ค๋Š” LVLM ์†์†ํžˆ ๋“ฑ์žฅํ•œ๋‹ค.

Problem States

LVLM์ด ์—ฌ์ „ํžˆ ๋‹จ์ˆœ ๊ธฐํ•˜ ๋ฌธ์ œ (e.g. ์„ ์ด ๋ช‡ ๋ฒˆ ๊ฒน์น˜๋Š”๊ฐ€?) ๋ฅผ ๋ชปํ‘ผ๋‹ค.

  • ๊ณต๊ฐ„ ๊ด€๊ณ„ ์ดํ•ด๋Š” ๊ณ ์‚ฌํ•˜๊ณ  accurate copying(strong perception)๋„ ๋ชปํ•จ.
  • long visual jumps ๋ฌธ์ œ (๊ณ„์† ์–ธ๊ธ‰๋˜์–ด ์˜จ, LVLM์ด high concept์€ ์ž˜ ๋ณด๋Š” ๊ฒƒ ๊ฐ™์€๋ฐ, ๋ถ€๋ถ„ ๋ถ€๋ถ„์€ ๋ชป๋ณด๋Š” ๋ฌธ์ œ์˜ ์—ฐ์žฅ)

Suggestion

์‚ฌ๋žŒ์ฒ˜๋Ÿผ ๋„ํ˜•์„ ์ž‘์€ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ ์„œ ์ธ์‹ํ•˜๋Š” Slow Perception ์ œ์•ˆ

  • ์‚ฌ๋žŒ์ฒ˜๋Ÿผ?: perception์€ ์ฆ‰๊ฐ์ ์ธ๊ฒŒ ์•„๋‹ˆ๋ผ ์ ์ง„์ ์ธ ๊ฒƒ์œผ๋กœ, ์‚ฌ๋žŒ์€ ๋ณต์žกํ•œ ๋„ํ˜•์„ ๊ธฐ๋ณธ ๋‹จ์ˆœํ˜•์œผ๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ์ดํ•ดํ•œ ํ›„ ํ†ตํ•ฉํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค.
  • step1 perception decomposition: (๋ณต์žกํ•œ ๋„ํ˜• ์ดํ•ด ๊ด€๋ จ) ์ค‘์ฒฉ๋œ ๋„ํ˜•์„ ๋‹จ์ˆœํ˜•์œผ๋กœ ๋ถ„๋ฆฌ
  • step2 perception flow: (์„  ์ถ”์  ๊ด€๋ จ) ๋‹จ์œ„ ๊ธธ์ด(perceptual ruler)๋งŒํผ ๋ถ„๋ฆฌ ํ›„ ์ตœ์ข… ๊ธธ์ด ์˜ˆ์ธก

Effects

inference time scaling law (์ถ”๋ก  ์‹œ๊ฐ„์€ ๊ธธ์ˆ˜๋ก ์ข‹๋‹ค) ํ™•์ธ

  • Mathvista์˜ geo subset์œผ๋กœ ํ™•์ธํ•œ ๊ฒฐ๊ณผ ์ œ์•ˆ ๋ชจ๋ธ์˜ ์ด๋ฏธ์ง€ ํŒŒ์‹ฑ ์ •๋ณด๋ฅผ ๋ง๋ถ™์˜€์„ ๋•Œ ์ •ํ™•๋„ 6.73%p ์ƒ์Šน
  • ๋‹จ์œ„๊ธธ์ด๊ฐ€ ์ค„์–ด๋“ค ์ˆ˜๋ก ์ตœ์ข… ๊ธธ์ด ์˜ˆ์ธก์— ๋„์›€

Personal note. ๋ชจ๋ธ ์ƒ๊น€์ƒˆ๋‚˜ ๋‹ค๋ฅธ ๋‚ด์šฉ์€ ๊ธฐ์กด ์—ฐ๊ตฌ์™€ ๋น„์Šทํ•œ ๊ฒƒ ๊ฐ™์€๋ฐ, ๋„ค์ด๋ฐ์ด ํฅ๋ฏธ๋ฅผ ๋‹๊ตฌ๋Š” ์‹์œผ๋กœ ๋œ ๊ฒƒ ๊ฐ™๋„ค์š”. ์ตœ๊ทผ ์—ฐ๊ตฌ ํ๋ฆ„ ์ž˜ ์•ˆ๋˜๋˜ ๋ถ€๋ถ„์„ ์—ฌ๋Ÿฌ๋ฒˆ ๋ณด๊ฒŒ ํ•˜๋Š” ๋ฐฉ์‹์„ ์ทจํ–ˆ๋˜ ๊ฒƒ ๊ฐ™์€๋ฐ, ๊ธฐ์ค€ ๋‹จ์œ„๋ฅผ ์ฃผ๊ณ  ๊ทธ์— ๋งž์ถฐ์„œ ํ•œ๋ฒˆ ๋ณด๋”๋ผ๋„ ์ž˜ ๋‚˜๋ˆ ์„œ ์ฃผ์˜๊นŠ๊ฒŒ ๋ณด์ž๋Š” ๋А๋‚Œ์œผ๋กœ ์ดํ•ดํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ธˆ์ฃผ ์—ฐ๊ตฌ๋ฏธํŒ… ๊ณต์œ ๋“œ๋ฆฌ๋Š” ๊ฑด์ด๋ž‘์€ ๋‹ค๋ฅธ ๊ฒฐ๋กœ ๊ณต๊ฐ„์ถ”๋ก  ๋‚ด์ง€๋Š” visual commonsense ๊ด€๋ จ ๊ฐ€๋ณ๊ฒŒ ์ฝ์–ด๋ณด๊ธฐ ์ข‹์•˜์Šต๋‹ˆ๋‹ค.