1 minute read

Meta info.
  • Authors: Wenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia
  • Paper: https://www.arxiv.org/pdf/2504.09858
  • Affiliation: Allen Institute., UC Berkeley
  • Published: April 14, 2025

TL; DR

reasoning 없이 reasoning 성능 내기 - 프롬프트만 바꿔서 짧게 여러 답변 생성시키는게 긴 CoT보다 나을 수 있다.

image.png

image.png

image.png

Background

LLM에 CoT는 필수적

  • 단점으로는 상대적으로 비용이 큼
  • 최근 연구에서 CoT 최적화나, BoN, MCTS기반 sampling 등 수행
  • 어쨌든 “LLM은 thinking 해야된다”가 전제

Problem States

Thinking이 꼭 필요한가? (LLM 추론에서 CoT를 제거할 수 있는가?)

Suggestions

NoThinking

  • Thinking: CoT
  • NoThinking: 학습은 CoT로 됐더래도 프롬프트 레벨에서 CoT를 시킨 것처럼 처리하기
    • 더미의 Thinking box만 두고 바로 최종 답 생성

        <|beginning of thinking|> 
        Okay, I have finished thinking. 
        <|end of thinking|>
      
  • BoN/Budget forcing 등과 병행

Effects

structured reasoning을 안해도 thinking보다 NoThinking이 낫다

  • Tasks:
    • competitive math (AIME24/25, AMC23, OlympiadBench)
      • coding (LiveCodeBench)
      • formal theorem proving (MiniF2F, ProofNet)
  • Results:
    • 대체로 2~5배 더 적은 토큰생성
    • 전체적인 성능
      • AMC23 (700 tokens): NoThinking이 51.3% vs. Thinking이 28.9%
      • OlympiadBench (800 tokens): k 키울수록 유익하게 성능향상 (scaling) - 비용면에서 확실한 우위 Fig 2
        • pass@1에서는 Thinking이 낫기도 하지만..
      • (token 제한 없이) NoThinking이 Qwen-Instruct보다 우위거나 대등 Fig 4
        • LiveCodeBench<-confidence-based방식의 성능이 낮기 때문으로 보임
    • parallel-decoding: 기존의 단순 confidence-based나 majoprity voting 적용하면 (훨씬 짧은 latency의) NoThinking+BoN이 pass@1에서 full-Thinkning을 이김
      • 최대 9배 빠르고 4배 적은 토큰 생성
      • 파레토 최적 달성: NoThinking이 훨씬 낮은 latency에서 높은 정확도 Fig 3
    • entropy 기준으로 더 uniform한 다양한 출력 보장 (= pass@k에 유익)