The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models
Meta info.
- Authors: Noah Siegel, Oana-Maria Camburu, Nicolas Heess, Maria Perez-Ortiz
- Paper: https://aclanthology.org/2024.acl-short.49.pdf
- Affiliation: Google DeepMind, UCL
- Conference: ACL2024
TL; DR
Counterfactural input์ ๊ฐ์ญ์ ์ถ๊ฐํ๋ ๋ฐฉ๋ฒ์ผ๋ก faithfulness ์ธก์ ํ ๋ LM output ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ๋ Correlational Counterfactural Test(CCT) ์ ์

Problem States
self-consistency์ด Fauthfulness๋ฅผ ๋ณด๊ธฐ์ ์ถฉ๋ถํ ์งํ๊ฐ ์๋๋ค.
- Fauthfulness: ๋ชจ๋ธ์ด ๋ต๊น์ง์ ์ถ๋ก ๊ณผ์ ๊น์ง ์ ํํ๊ฒ ๋ํ๋ด๋๊ฐ?
- ๋ชจ๋ธ ์ถ๋ ฅ์ faithfulness๊ฐ ์ค์ํ๊ฑด ํต์ ์๋ ค์ง ์ฌ์ค
- ์ด๋ฅผ ํ๋จํ๊ธฐ๋ก๋ ๋ณดํต Counterfactural Test(CT)์์ โ(์ ๋ ฅ์ ๋ฐ๊พธ๋ ๋ฑ ๋ชจ๋ธ behavior๊ฐ ๋ฐ๋ ์ ์๋๋ก ์กฐ์ํ์ ๋) ์ถ๋ ฅ์ด ๋ฐ๋๋๋โ์ ๋ํ ์ฌ๋ถ(=binary, ๋๋ ์ผ์ข ์ consistency)๋ก ๋ณด๊ณ ์์.
- Interventional Addition(IA): IA๊ฐ input์ ์ฝ์ ๋์ ๋, ๋ชจ๋ธ ์์ธก์ด ๋ฐ๋๋ฉด ํด๋น IA๋ ์ ์๋ฏธํ factor๋ก ๊ฐ์ฃผํ๊ณ , ํด๋น IA๊ฐ ์ฌํ ์ค๋ช ์ ๋ฑ์ฅํ๋์ง ํ์ธ
- Research Question: ๋ชจ๋ธ์ ์์ธก distribution์ด ์ด๋ป๊ฒ ๋ฐ๋๋์ง ๋ณด๋๊ฒ ์ด๋จ๊น?
- ์ถ๋ ฅ์ด โ์ด๋ ์ ๋โ๋ ๋ฐ๋๋์ง ๋ณด๊ณ ์ ํ๋ ์๋
Suggestions
Correlational Explanatory Faithfulness (CEF, ์๊ด๊ด๊ณ ์ค๋ช ์ถฉ์ค๋?) Metric ์ ์
- (์ ์ ) faithfulness๋ฅผ ํ๋จํ๊ธฐ ์ํด์๋, ๋จ์ํ ์ ์ํ factor๋ฅผ ์๋ณํ๋ ์์ค์ ๊ทธ์น์ง ๋ง๊ณ ๊ทธ๋ ๊ฒ ์๋ณ๋ factor๋ค์ด ๊ทธ๋ ์ง ์์ factor๋ณด๋ค ์์ฃผ ์ธ๊ธ๋๋๋ก ํด์ผ๋๋ค.
- (CT์ ์ฐจ์ด) ๊ฐ์ ์ด ์์ธก์ ์ํฅ์ ๋ฏธ์น๋ค๋ฉด, ์ค๋ช ์์ ์ธ๊ธ๋ง ๋๋ฉด faithfulํ๋ค๊ณ ํ๊ฐ๋ ์ ์์
- (๋ฐฉ๋ฒ)ย Correlationalย Counterfactural Test (CCT)์ ์ ์ฉ: counterfactural test๋ฅผ ์ํํ๊ธฐ ์ํด
- intervention: IA ๊ฐ์ ๋ฐ์
- prediction impact ์ธก์ : ๊ฐ์ ์ ํ ๋ชจ๋ธ ์ถ๋ ฅ์ ๋ถํฌ(=์์ธก)๋ฅผ ํ์ธ ํ๊ณ TVD(์์ ํ๋ฅ ์ฌ์ด ๋ณํ๋ ๊ฐ์ค์น ๋์ฃผ๋ ๋ฐฉ๋ฒ)๋ก ํ์ธ
- explanation mention ์ธก์ : ๋ชจ๋ธ ์ค๋ช ์ ์ ์ํ Factor์ ์ธ๊ธ์ ์ฆ๊ฐํด์ผ ํ๊ณ ๊ทธ๋ ์ง ์์ Factor ์ธ๊ธ์ ์๋ตํ๊ธธ ๊ธฐ๋
- (ํด์) ๊ฐ์ด ํด์๋ก ํด๋น factor๊ฐ ๋ชจ๋ธ ์์ธก์ ์ํฅ์ด ์ปธ๋ค
Effects
- experiment setup:
- Datasets: ์ค๋ช ์ด ๋ถ์ downstream task datasets. e-SNLI(NLI), ComVE(common sense), ECQA(multiple choice QA)
- backbone: Llama-2 series, 20-shot prompt
- methods: predict โ explain(PE) or explain โ predict(EP)
- intervention: ๋ฌธ์ฅ์ ๋ช
์ฌ ์์ ํ์ฉ์ฌ ์ถ๊ฐ or ๋์ฌ ์์ ๋ถ์ฌ ์ถ๊ฐ
- Llama-2-70B ๋ชจ๋ธ๋ก ๋ง์ด ๋๋ ๋ฌธ์ฅ์ธ์ง filtering
- results:
- intervention๊ณผ explanation๊ฐ ์๊ด์ฑ: ๋ชจ๋ธ ์ค๋ช
์ intervention์ด ๋ชจ๋ธ์ ์์ธก์ ์ํฅ์ ๋ฏธ์น๋ ๊ฒฝ์ฐ ํด๋น ๋จ์ด๋ฅผ ์ธ๊ธํ ๊ฐ๋ฅ์ฑ์ด ๋ ๋์๋ค
figure 1ย : x์ถ-TDV, y์ถ-์ค๋ช ์ ์ธ๊ธ๋ ํ์, True/False-faithfulํ ์ค๋ช ์ธ์ง ์ฌ๋ถ- e-SNLI: ์ ์ํ factor๋ฅผ ์ค๋ช ์ ๋ ์์ฃผ ์ธ๊ธ (์์ ์๊ด๊ด๊ณ)
- ECQA: ์ค๋ช
์ factor๊ฐ ์์ฃผ ์ธ๊ธ๋๊ธด ํ๋ ์ ์ํ์ง ์์ (์๊ด์ฑ ์์)
- ๋ฐ์ดํฐ์ ์ ์ฃผ์๋ ์ค๋ช ์ด ์ด์(ํ ์ง๋)
- ๋ชจ๋ธ์ด ํด์๋ก ์ค๋ช ์ ํ๋์ faithfulness ๋ชจ๋ ๋์ ํธ
- EP๋ณด๋ค๋ PE๊ฐ ๋ faithful
- intervention๊ณผ explanation๊ฐ ์๊ด์ฑ: ๋ชจ๋ธ ์ค๋ช
์ intervention์ด ๋ชจ๋ธ์ ์์ธก์ ์ํฅ์ ๋ฏธ์น๋ ๊ฒฝ์ฐ ํด๋น ๋จ์ด๋ฅผ ์ธ๊ธํ ๊ฐ๋ฅ์ฑ์ด ๋ ๋์๋ค
Personal note. counterfactor๋ faithfulness ๊ฐ ํค์๋๊ฐ์์ kc ๊ด๋ จ๋๊ฐ ๋์์ค ์๊ณ ์์ํ๋๋ฐ์ฌ์ค์ Interpretability์ ๊ฐ๊น์ด ๋ด์ฉ์ด์์ต๋๋คโฆ๋ง์ฌํํ ๊ฒฐ๊ณผ์ ๋ ผ๋ฌธ ๊ธธ์ด ๋๋น (์งง์์ ๋ ๊ทธ๋ด์ง๋,,) ์๊ทผ ๋น์ฝ์ด ๋ง์์๊ฒฐ๊ณผ ๋๊ณ ํด์ํ๋๋ฐ ์๊ฐ์ด ์ด์ง ๊ฑธ๋ฆฐ ๊ฒ ๊ฐ์ต๋๋ค๐ค