Chain-of-Thought Reasoning Without Prompting

February 20, 2024 less than 1 minute read

Meta info.

Authors: Xuezhi Wang, Denny Zhou
Paper: https://arxiv.org/pdf/2402.10200.pdf
Affiliation: Google DeepMind

TL; DR

LLM의 decoding을 greedy decoding에서 top-k decoding으로 바꾸면 prompt 없이도 CoT reasoning 유도 가능

Untitled

Suggestions

명시적은 prompting 없이 디코딩만 좀 조작해주면 CoT 비슷하게 할 수 있다. (물론 디코딩에 추가 계산 비용 있음!)
Greedy Decoding 대신에 top-k의 후순위 토큰들을 조사했을 때 이 시퀀스에 CoT를 진행하는 경로가 녹아진 경우가 많았다고.
이런 path를 탈 경우 (논문에서는 CoT-decoding이라고 명명) 모델 신뢰도도 높아지는 경향.

Personal note. LLM(여기서는 PaLM-2, Mistral-7B)에게 질문을 넣은 다음 가장 먼저 나올 수 있는 상위 k개 토큰들로부터 답변을 생성했을 때, 가장 확률이 높은 토큰이 아닌 다른 토큰으로부터 CoT스러운 & 훨씬 confident한 답변이 나올 수 있다고 합니다.

다만 모델이 어느 정도 커야(PaLM-2 Large) 좀 볼만한 답변을 출력하고, few-shot이나 instruction finetuning을 거친 모델보다 성능이 뒤처지며, 다른 답변 탐색에 추가적인 cost가 드는 등 여러 단점이 있어 아직까진 가능성만 보여준 논문으로 보입니다.