SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales
Meta info.
- Authors: Tianyang Xu, Shujin Wu, Shizhe Diao, Xiaoze Liu, Xingyao Wang, Yangyi Chen, Jing Gao
- Paper: https://arxiv.org/pdf/2405.20974
- Affiliation: Purdue Univ., UIUC
- Published: June 5, 2024
- Code: https://github.com/xu1868/SaySelf
TL; DR
์๊ธฐ ๋ฐ์ฑ์ (?) ๊ทผ๊ฑฐ์ ๋ค์ค ์ถ๋ก chain์ผ๋ก LLM์์ ์ ๋ขฐ๋ ๋ณด์ ์ค๋ฅ๋ฅผ 30% ์ค์ธ๋ค



Problem States
LLM hallucination ๊ด๋ จ, ์์ฑ๊ฒฐ๊ณผ์ ์ ๋ขฐ๋ ์ถ์ ์น๊ฐ ์๋๋ฐ, ๊ธฐ์กด์ prompt๋ฅผ ๊ฑด๋ค๊ฑฐ๋ trainingํ๋ ๋ฐฉ์์ ์ ๋ขฐ๋ ์ถ์ ์ ๊ฐ์ ์ ํน์ ์ฐจ์ ์ฑ
์ผ๋ก ๋ณด์ฌ์ง. (pic1ย )
Suggestions
SaySelf - LLM ์ ๋ขฐ๋ ์ถ์ ์น ์ ๊ณต ๋ฐ ์๊ธฐ๋ฐ์ฑ์ ์ถ๋ก (๊ทผ๊ฑฐ) ์ง์ ์์ฑ(pic2)
- (stage 1) finetuning: construct supervised dataset (๊ตฌ์ฑ: q, ์ถ๋ก chain ํฌํจ a, ์๊ธฐ ๋ฐ์ฑ์ (?) ๊ทผ๊ฑฐ, 10์ ์ฒ๋์ ์ ๋ขฐ๋ ์ถ์ ์น)
- HotpotQA์ 90K ์ง๋ฌธ์ผ๋ก ๋คํ ํ๋กฌํํ โ ์์ฑ๋ฌผ clustering (์ฌ์ ์ ์๋ ํฌ๊ธฐ s๋งํผ)โ cluster์์ 1๊ฐ ์๋ต ์ ํ
- ์ ๋ขฐ๋ ์ถ์ ์น: ์ ํ๋ ์๋ต๊ณผ gold answer๋ ๋น๊ตํด์ c ๊ฒฐ์ (c=round(s/N*10) ํด๋ฆฌ์คํฑํ๊ฒ ์ ์๋จ)
- ์๊ธฐ๋ฐ์ฑ์ ๊ทผ๊ฑฐ: GPT4์๊ฒ ์๋ต์ ๋ถ์ผ์น์ฑ์ ๋ถ์ ๋ฐ ์์ฝํ๊ฒ ํด์ 1์ธ์นญ ์์ ์์ ๋ด์ฉ ์ ๋ฆฌ์ํด
- (stage 2) reinforcement learning (from stage 1 task supervision): finetuning๋ง์ผ๋ก๋ ์ ๋ต์๋ ๋ฎ์, ์ค๋ต์๋ ๋์ ์ ๋ขฐ๋๋ฅผ ๋ณด์ด๋ ๊ฒฝ์ฐ ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ์ ๋ขฐ๋ ์ถ์ ์น ๋ณด์ ์๋
- ๋ชจ๋ธprompt ์์ฒญ์ฌํญ: a, ์๊ธฐ ์ฑ์ฐฐ์ ๊ทผ๊ฑฐ, ์ ๋ขฐ ์์ค c ์์ฑ
- PPOํ์ฉ, reward function ์ ์ (
pic3)