Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost

August 6, 2024 1 minute read

Meta info.

Authors: Sania Nayab, Giulio Rossolini, Giorgio Buttazzo, Nicolamaria Manes, Fabrizio Giacomelli
Paper: https://arxiv.org/pdf/2407.19825
Affiliation: Mediavoice Srl- Roma e Napoli, Scuola Superiore Sant’Anna

TL; DR

단순하게 prompt에 길이 제한을 걸어도 성능에 별 영향이 안가면서 효율적 추론 가능

Untitled

RQ1 CCoT가 효율성 및 접근성 측면에서 유익한가? (pic3)
- LLaMA2-70b 기준, reasoning length를 100단어로 제한시 GSM8K 36.01% > 41.97%로 향상, 평균 28단어 감소
RQ2 CoT 대비 CCoT가 유익한 모델은 어떤 모델인가?
- 대형모델일수록 유리한듯. 가령 LLaMA2-70b나 Falcon-40b 정도.
- Falcon-7b / Vicuna-13b 등에서는 역효과 나기도.
RQ3 explicit 하게 prompt로 output 길이 제한하는게 잘 되는가?
- 모델 사이즈가 클수록 output 길이 제한을 잘하고 정확도 유지 및 개선에도 효과
RQ4 제안하는 metric이 효과적으로 간결성 및 정확성을 모두 포착하는가?
- 제안하는 metric
  - Hard-k Concise Accuracy (HCA): 길이 안넘치게 정답인지 (pic4)
  - Soft-k Concise Accuracy (SCA): 길이 안넘치게 (오차 범위에 decay factor 추가) 정답인지
  - Consistent Concise Accuracy (CCA): output 길이 일관성까지 함께 고려 (길이 변동성을 negative하게 고려)
- CoT 및 base prompt 대비 정확도 및 응답 변동성 감소 등을 확인

Personal note. 단순하게 prompt에 길이 제한을 걸어도 별 영향이 안간다는 이야기기는 한데, GSM8K만 가지고 봐서 일반적인 결과인지는 의심스럽네요.