MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs
Meta info.
- Authors: Kaustubh Deshpande, Ved Sirdeshmukh, Johannes Baptist Mols, Lifeng Jin, Ed-Yeremai Hernandez-Cardona, Dean Lee, Jeremy Kritz, Willow E. Primack, Summer Yue, Chen Xing
- Paper: https://aclanthology.org/2025.findings-acl.958/
- Affiliation: ScaleAI
- Published: January 29, 2025
- Code: https://github.com/ekwinox117/multi-challenge
- Conference: ACL2025, Findings
TL; DR
multi-turn setup์์์ ๋์ 4๊ฐ์ง (Instruction Retention, Inference Memory, Reliable Versioned Editing, Self-Coherence)๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ ์ ์, ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ์ฑ๊ณตํ๋ ์ต์ SOTA ๋ชจ๋ธ๋ค๋ ์ ์ ๋ฒค์น๋งํฌ์์ 50์ ๋ฏธ๋ง์ ์ฑ๋ฅ ๊ธฐ๋ก.







Background
- MT-Bench, MT-Eval ๋ฑ ๊ธฐ์กด ๋ฉํฐํด ๋ฒค์น๋งํฌ๋ ์ต์ ๋ชจ๋ธ์ด ์ด๋ฏธ ์ฑ๊ณตํ ๋ฏ
- multi-IF๋ฅ๋ format์ค์ฌ โ ์ค์ง์ ์ธ ๋ํ Setup์ ๋ฌธ์ ํฌ๊ดํ์ง ๋ชปํจ
Problem States
multi-turn setup์์ ๋ชจ๋ธ์ ์ต์ด instruction์ ์ ์ง, turn๋จ์๋ก ํฉ์ด์ง implicitํ ์ฌ์ฉ์ ์ ๋ณด๋ฅผ ํ์ํ๊ฑฐ๋ ๊ฒฐํฉ, ์ ๋ณด ์ถ์ ๋ฐ ์ ๋ฐ์ดํธ, ์๊ธฐ ์ผ๊ด์ฑ ๋ฑ์ ์ถฉ์กฑํด์ผ ํ๋ค.
Suggestions
Evaluation only benchmark MultiChallenge ๊ณต๊ฐ
- 4๊ฐ์ง ๋ฌธ์ ์ ์ : in-context reasoning์ ์ํ๋ ๋ฌธ์
- Instruction Retention: ์ต์ด instruction์ ์ ์ ์งํ๋์ง
- ํ์์ ์ฝ, ์๋ฏธ์ ์ ์ฝ ๋ชจ๋ ํฌํจ
- ๋ง์ง๋ง ์๋ต์ด ์ด ์ ์ฝ์ ๋๊น์ง ์ ์งํ๋๊ฐ?
- UK ๋ฑ๊ธ ์ ์ฝ์ ๋ง์ถฐ์ ์ํ ์ถ์ฒํด์ค
- Inference Memory: ์ด์ turn๋ค์์ ํฉ์ด์ง (+์์์ ์ธ) ์ฌ์ฉ์ ์ ๋ณด๋ฅผ ์ ์ ํ ์ทจํฉ, ์ ํํ์ฌ ์ต์ข
turn ์๊ตฌ์ ๋ฐ์ํ ์ ์๋๊ฐ?
- ์ต์ข turn์์ ํด๋น ์ ๋ณด๋ฅผ ์ง์ ๋ฌป์ง ์๊ณ , ๋ชจ๋ธ์ ์ด๋ฅผ ๋งฅ๋ฝ์ ์ถ๋ก (๋จ์ ํค์๋ ๋งค์นญ ์ด์์ ์๊ตฌ)
- ์ด๋ฐ ์๋ ๋ฅด๊ธฐ/์ทจํฅ ์ ์ฝ์ ์์ง ์๊ณ ์ ์งํ๋๊ฐ?
- ๊ฒฌ๊ณผ๋ฅ ์๋ ๋ฅด๊ธฐ์ ๋ํด ์ธ๊ธํ์ผ๋ฉด, ๋ง์ง๋ง๊น์ง ๋ ์ํผ์ ๊ฒฌ๊ณผ๋ฅ๊ฐ ์๋ค์ด๊ฐ๋์ง
- ๊ด๋ จ์๋ ๊ณผ๊ฑฐ ์ ๋ณด๋ฅผ ๋์ด๋ค๊ฐ (๊ณผ์)๋ฐ์ํ์ง ์๋๊ฐ?
- Reliable Versioned Editing: coreference ๋ฑ ํด์ โ ์ฌ๋ฐ๋ฅธ ๋ฒ์ ๋ณต๊ธฐ โ ํธ์ง ์
๋ฐ์ดํธ
- ์ฌํ ์ผ์ , ์ด๋ฉ์ผ, ์ฝ๋ ๋ฑ ์ฌ๋ฌ ๋ฒ์ ์ ์ค๊ฐ๋ฉฐ ์ ํํ ์ฐธ์กฐ ๋ฒ์ ์ ๊ทธ๋๋ก copyํ๊ณ ๊ทธ ์์ ์ ์์ ์ด ๊ฐ๋ฅํ์ง
- ๋์๊ฐ ๋ฐ๊พธ๊ธฐ ์ ์ผ์ ์ผ๋ก ๋์๊ฐ์ ๋ณด์ฌ์ค โฆ
- Self-Coherence: ๋ชจ๋ธ ์ค์ค๋ก์ ๋ฐ์ธ์ด ์ผ๊ด๋๋์ง ํ์ธ
- ์ ์ ์ ์ ๋์ ๋ฐ๋ผ์๋ ์์ฒจํ๋ ๋ฑ ๋ฒ๋ณตํ์ง ์๊ณ ์๊ธฐ ๋ชจ์์ด ์๋์ง
- ์ด์ ๋ค ๋๊ฑฐ์ฃ ? ๊ฐ์ ํจ์ ์ง๋ฌธ
- Instruction Retention: ์ต์ด instruction์ ์ ์ ์งํ๋์ง
- ๋ฐ์ดํฐ์
๊ตฌ์ถ: ํ๊ท 5-turn์ ์ด 273๊ฐ ๋ํ
- Instruction Retention(113), Inference Memory(69), Reliable Versioned Editing(41), Self-Coherence(50)
- MMSE: ๋ฐ์ดํฐ์
์์ฑ ํ์ดํ๋ผ์ธ
- ๋ชฉํ: ํ์ค์ ์ด๊ณ ๋ชจ๋ธ๋ค์ด ์ค์ ๋ก ํ๋ฆด ๋งํ ์์ ๊ตฌ์ถ
- (๋ชจ๋ธ์ด) ๊ตฌ์ถ: role ๊ตฌ๋ถํ์ฌ LLM ํ์ฉ
- Planner: topic hierarchy + persona + 4๊ฐ์ง ๋ฌธ์ ์นดํ ๊ณ ๋ฆฌ์ค 1๊ฐ โ blueprint ์์ฑ
- User Agent: blueprint๋ฅผ ์ค์ ๋ํ turn์ผ๋ก ๊ตฌ์ฒดํ
- Responder: 6๊ฐ Frontier ๋ชจ๋ธ ์ค ๋๋ค ์ ํ โ ์๋ต ์์ฑ (3๊ฐ ์ด์์ด ์คํจํด์ผ ๋จ๊น)
- (์ฌ๋์ด) ํธ์ง: ์ ์ฒด ์ค ์ฝ 1/4 ์ ๋์ ๋ฌธ์ฅ ์์
- ๊ฐ instance์ ๋ํด ๋งจ ๋ง์ง๋ง ์๋ต๋ง ๋ณด๊ณ .
- ๋ฃจ๋ธ๋ฆญ ์ค๊ณ ์ถ๊ฐ : yes or no๋ก ์ฑ์ ๊ฐ๋ฅํ๋๋ก
- (์ฌ๋์ด) ๊ฒ์: ๋ ๋ช
์ ๋
๋ฆฝ๋ ๊ฒ์์๊ฐ
- ์์ฐ์ค๋ฌ์ด์ง
- ์ ๋ง 1๊ฐ์ ๋ฌธ์ ๋ถ๋ฅ๋ง ํ๊นํ๋์ง
- 6๊ฐ ํ๋ณด๋ชจ๋ธ์ค ์ง์ง 3๊ฐ ์ด์์ด ์คํจํ๋์ง
- ๋ฃจ๋ธ๋ฆญ ์ง๋ฌธ์ ๋ช ํํ๊ฒ yes or no์ธ์ง
Effects
- baselines: closed ๋ชจ๋ธ 6์ข ๊ณผ opensource ๋ชจ๋ธ
Table2ย ๋ชจ๋ frontier ๋ชจ๋ธ์ด 50์ ์ดํ ๋ฌ์ฑ- Claude 3.5 Sonnet์ด ์ฝ 41์ ์ผ๋ก ์ต๊ณ ์ฑ๋ฅ
- o1-preview๋ 37์ ์ ๋ (Inference Memory & Versioned Editing์ ๋ฅ์)
- GPT-4o ๋ฑ ๋๋จธ์ง๋ ๊ทธ๋ณด๋ค ๋ฎ์
Table2ย ์ฌ๋์ด ํ๊ฐยTable3ย ๋ชจ๋ธ์ด ํ๊ฐยTable4ย ๋ชจ๋ธ๊ณผ ์ฌ๋ align ํ์ธ (์ ํฉ๋ 94%๋ก ๋๋ค)ยTable5ย opensource ๋ชจ๋ธ
- turn ์๋ ์๊ด ์๊ณ ์ถ๋ก ๋ ฅ์ ๋ฌธ์
Personal note. ์ง๊ธ ์งํํ๊ณ ์๋ memory ์ฐ๊ตฌ์์ ๋ณด๋ ค๊ณ ํ๋ ๋ค์ํ ๋ฌธ์ ์์๋ค์ด ์ด๋์ ๋ ๋ด๊ธด ๋ฒค์น๋งํฌ๋ก ๋ณด์ ๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ฅผ ์ ํ๊ฒ ํ๋ ๊ฒ๋ ์ถฉ๋ถํ ๊ธฐ์ฌ๊ฐ ๋ ์ ์์ด ๋ณด์ด๊ธฐ๋ ํฉ๋๋ค. ๋ฐ์ดํฐ์ ๋ ๊ณต๊ฐ๋์ด ์๋๋ฐ ๋์ผ๋ก ๋ดค์๋๋ ํ์ง๋ ๊ด์ฐฎ์ ๋ณด์ ๋๋ค. ์ ์๋ค์ ์ผ๋ถ ๋ฐ์ดํฐ๋ ๋ง๋ค๊ณ ๋ ๋น๊ณต๊ฐํ๋ค๊ณ ํ๋๋ฐ, ๋ฃจ๋ธ๋ฆญ์ด ๊ฒฐ๊ตญ binary์์๋ ์์ง ๋ชจ๋ธ์ด ์ ํ๋จํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ผ๋ก, ํ๊ฐ์ ์ฌ๋-๋ชจ๋ธ๊ฐ ์ ํฉ๋๋ฅผ ์ํด ์กฐ์ ํ ๊ฒ์ผ๋ก ๋ณด์ด๋ฉฐ, ํฅํ ๊ณต๊ฐ ์์ ์ด๋ผ๊ณ ํฉ๋๋ค.