CONFETTI: Conversational Function-Calling Evaluation Through Turn-Level Interactions
Meta info.
- Authors: Tamer Alkhouli, Katerina Margatina, James Gung, Raphael Shu, Claudia Zaghi, Monica Sunkara, Yi Zhang
- Paper: https://arxiv.org/pdf/2506.01859
- Affiliation: Amazon
- Published: June 2, 2025
- Code: https://github.com/amazon-science/confetti
TL; DR
multi-turn dialogue์์ LLM Function Calling์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ CONFETTI ์ ์. ํ์ฌ ๋ชจ๋ธ๋ค์ ์ฌ์ ํ ๋ณต์กํ ์ฐ์์/๊ธด ์ปจํ
์คํธ/๋ํ API ์ ํ์ ํ๊ณ๊ฐ ์์์ ํ์ธ.

Background
- Function Calling: user utterance(request)์์ ๊ตฌ์กฐํ๋ API call์ ์์ฑํ๋ task
- LLM ํ์ฉ ๋ํ ์์คํ ์์ ํต์ฌ ๊ธฐ๋ฅ์ผ๋ก ์๋ฆฌ๋งค๊น
- ๊ธฐ์กด์ ๊ด๋ จ ๋ฒค์น๋งํฌ๋ค์ ๋ํ ๊น์ด, API ๋ค์์ฑ, turn-level ์ธ๋ถํ ๋ถ์กฑ
Problem States
LLM์ ์์ง ์ฌ๋ฌ API ์ค ์ ์ ํ๊ฑธ ๊ณ ๋ฅด๊ณ > ๋ช ํํ์ง ์์ ์ ์ ๋ชฉํ๋ฅผ ํ์ ํ๊ณ > ๊ทธ์ ๋ฐ๋ฅธ ์ฐ์์ ์ธ function call ์ฒ๋ฆฌ ์ญ๋ ๋ถ์กฑ
Suggestion
CONFETTI
- ๋ํ ์์ฒด๋ ์ ๋ถ ์ฌ๋์ด ๋ง๋ค์๊ณ ์ต๋ 25๊ฐ์ API Call ์๋๋ฆฌ์ค(์ต๋ 4ํ๊น์ง์ chaining), turn๋จ์ ํ๊ฐ ๊ฐ๋ฅํ๋๋ก ๊ตฌ์ถ, 13๊ฐ ์ ํ์ผ๋ก complexity๋ฅผ ๊ตฌ์ฑย `table1`
- complexity: ์ ์ ๋ชฉํ๊ด๋ จ, ์ ๋ณด ์ ๊ณต ์ ๊ด๋ จ, ์คํ ์คํจ ํน์ ๋ถ๊ฐ ๊ด๋ จ,ย **๋ํ ํ๋ฆ ์ ์ด ๊ด๋ จ**, ๊ทธ ์ธ ๊ธฐํ ๋ฑ
- 2๊ฐ์ง ๋ฒค์น๋งํฌ ๊ตฌ์ฑ: function calling / response quality
- function calling bench:ย **FC์ด ํ์ํ turn๋ง๋ค**
- input: (ํด๋น turn๊น์ง user-agent) context + ์ด์ FC ๋ด์ญ
- output: ๋ค์์ ํธ์ถํ function 1๊ฐ ์ด์
- response quality:ย **๋งค (agent์) turn๋ง๋ค**
- input: context + API schema
- output:ย **dialog act**ย ๋ถ๋ฅ
- ๊ตฌ์ถ ๋ฐฉ๋ฒ: ์ ๋ถ ์ฌ๋์ด ๋ง๋ฆ.. (๋ชจ๋ธ์ ์ข
์์ฑ ์์ด ํ๊ฐ๋ ์ ์๋๋ก)
- ์๋๋ฆฌ์ค ๋ง๋ค๊ธฐ: ๋ํ๋ชฉํ + ์ํฉ ์ ์ - ์ ๋ฌธ๊ฐ ๊ฒํ
- ๋ณต์ก์ฑ ํ๋ณด ๋ชฉ์ (๋์ผ ๋ชฉํ๋ ๋ค๋ฅธ ๋ฐฉ์์ ๋ํ ๊ตฌ์ถ)
- ์ฌ์ฉํ api ๋ฆฌ์คํ
, 13๊ฐ์ค ํฌํจํ ๋ณต์ก์ฑ ์ ํ, ๋ํ ์์ (์ฃผ์ค์ธ์ง ์ค์ ์ธ์ง ๋ฑ), ์ต์ turn ์ ๋ฑ
- ๋ํ ๊ตฌ์ถ: 1๋ช
์ annotator๊ฐ user-agent ๋ชจ๋ ์ํ
- ํ๊ฐ์งํ:
- AST soft accuracy: ํจ์ ์ข
๋ฅ, ํ๋ผ๋ฏธํฐ ์ด๋ฆ, value๊น์ง ์น ๋ง์ถ๋์ง
- string์ exact match ํ๊ธฐ๋ณด๋ค๋ ์ ์ฌ๋ ํ๊ฐ (AlignScore)
- Dialogue Act accuracy (classification)
- parameter hallucination: api ๋ช
์ธ์ ์๋๊ฑฐ ๋ถ๋ฅด์ง๋ ์์๋์ง (์๋ต ์ ๋ขฐ๋ ํ๊ฐ) - Results:
- ์ฃผ์ ๋ชจ๋ธ๋ณ FC ์ฑ๋ฅย `table 4`
- amazon ์์ฒด Nova Pro๊ฐ ์ต๊ณ ์ฑ๋ฅ (AST Soft Accuracy๊ธฐ์ค)
- ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ์ต๋ 40% ์์ค
- API ์๊ฐ ๋์๋ก ๋ชจ๋ธ์ฑ๋ฅ ๊ธ๊ฐ (ํนํ 20๊ฐ ์ด์์์ Claude 3.0, LLaMA 70B ๋ฑ)ย `figure 2`
- ์ค์ ์ฌ์ฉ ๊ฒฝํ ์ธก๋ฉด์ ์ด์ ์์
- turn ์ ๊ธธ์๋ก ์ ์๋ ๊ฒ ๊ฐ์ง๋ง ์ผ๋ถ ๋ชจ๋ธ (amazon ์์ฒด ๋ชจ๋ธ ํน์ LLaMA 405B ๋ฑ)์ ์คํ๋ ค ์์นํ๊ธฐ๋ย `figure 3`
- ์ํ ๋ชจ๋ธ์ด ์ด๋ ค์์ ๊ฒช์
- chaining์ ๊ธธ์ด์ง์๋ก ํฌ๊ฒ ํ๋ฝ: 1๊ฐ๊น์ง๋ 50% ๋ฏธ๋ง์์ค์ด๋ค๊ฐ, 1๊ฐ๋ง ๋ ๋์ด๋ 20% ์ดํ๋ก ๊ธ๊ฐ, 3๊ฐ ์ด์์์๋ ๋ชจ๋ ๋ชจ๋ธ์ด 0~5% ์์คย `figure 4`
- dialog act ๊ด๋ จํด์๋ Claude 3.5 Sonnet์ด 73% ๋ฑย `table 6`
Personal note. Thoughts
- dialog act ์ ์: intent์ ๋์นํ ์๋ ์์ ์ง๋ ๋ชจ๋ฅด์ง๋ง(a, b), ๋ ๊ทธ๋ ๋ฏ ์ ์ํ๊ธฐ ๋๋ฆ์ด๊ธฐ ๋๋ฌธ์.. ๋ค๋ง ์์ฆ์ ๊ฒฝ์ฐ ๋ ์ด ์ฐ๊ตฌ์ ๊ฒฝ์ฐ๋ ํจ์ ํธ์ถ์ act๋ก ์ฒ๋ฆฌํ์ฌ ๊ณผ์ ํธ์ถ ํน์ ๋ฐ๋๋ก ํธ์ถ์ ๋์น๋ ๊ฒฝ์ฐ ๋ฑ์ ํ์ธํ๊ธฐ ์ฉ์ดํด์ง. others ๋ฑ์ผ๋ก ๊ธฐํ ์๋ต ์ญ์ ํฌํจ 1) ์ค์ ๋ก intent์ ๋งค์ฐ ๋น์ทํ ์ฑ๊ฒฉ, ์๋ฅผ ๋ค๋ฉด inform ํ ์ง, ์ ๋ณด๋ฅผ seekํ ์ง ๋ฑ ์ ํต์ ์ผ๋ก ์ ๊ทผํ๋ ๋ฐฉ์์ ์ ์ฌ. 2) dialog act ํ๊ฐ ๋ชฉ์ ์ญ์ ์์ ์ BLEU ๊ฐ์ ์ ์ฌ๋ ๊ธฐ๋ฐ metric์ด user ์๋์ ์ญํ ์ ๋ํด์ ํ๊ฐํด์ฃผ์ง๋ ์์๊ธฐ ๋๋ฌธ์ด๋ฏ๋ก..!
- ์ค๋ ๋ฏธํ ์์ ๊ณต์ ํ ํ๋ฆ ์ธ์๋ ๋ฒค์น๋งํฌ ๊ตฌ์ถ ์์ฒด๋ฅผ ๋ค ์ฌ๋ ์์ ํ์ด ๊ฒ ์ฃผ์ ๊ฐ์ ์ธ๋ฏ
- ๋ํ ํ๋ฆ ์ ์ดย ๊ด๋ จํ complexity๋ฅผ ์ ์ํ๊ธด ํ์ง๋ง, ์ฐ๋ฆฌ ์ฐ๊ตฌ์ ์ ์๋ณด๋ค๋ ๋จํธ์ ์ธ ํ๋ฆ์ผ๋ก ๋ณด์ฌ์ง. ๋ค๋ง dialogue goal switching์ ์ง์ ๊ณ ๋ คํ๊ธฐ ์ํ ๋ชฉ์ ์ผ๋ก, ์ฐ๋ฆฌ ์ฐ๊ตฌ๋ฅผ ํฌ๊ดํ๋ ํ๋ฆ์ผ๋ก ๋ณผ ์๋โฆ