MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs

September 10, 2025 2 minute read

Meta info.

Authors: Kaustubh Deshpande, Ved Sirdeshmukh, Johannes Baptist Mols, Lifeng Jin, Ed-Yeremai Hernandez-Cardona, Dean Lee, Jeremy Kritz, Willow E. Primack, Summer Yue, Chen Xing
Paper: https://aclanthology.org/2025.findings-acl.958/
Affiliation: ScaleAI
Published: January 29, 2025
Code: https://github.com/ekwinox117/multi-challenge
Conference: ACL2025, Findings

TL; DR

multi-turn setup에서의 난제 4가지 (Instruction Retention, Inference Memory, Reliable Versioned Editing, Self-Coherence)를 평가하는 벤치마크 제안, 기존 벤치마크에 성공하는 최신 SOTA 모델들도 제안 벤치마크에서 50점 미만의 성능 기록.

Background

MT-Bench, MT-Eval 등 기존 멀티턴 벤치마크는 최신 모델이 이미 성공한 듯
multi-IF류는 format중심 → 실질적인 대화 Setup의 문제 포괄하지 못함

Problem States

multi-turn setup에서 모델은 최초 instruction의 유지, turn단위로 흩어진 implicit한 사용자 정보를 회수하거나 결합, 정보 추적 및 업데이트, 자기 일관성 등을 충족해야 한다.

Suggestions

Evaluation only benchmark MultiChallenge 공개

4가지 문제 정의 : in-context reasoning을 요하는 문제
- Instruction Retention: 최초 instruction을 잘 유지하는지
  - 형식제약, 의미적 제약 모두 포함
  - 마지막 응답이 이 제약을 끝까지 유지하는가?
    - UK 등급 제약에 맞춰서 영화 추천해줘
- Inference Memory: 이전 turn들에서 흩어진 (+암시적인) 사용자 정보를 적절히 취합, 선택하여 최종 turn 요구에 반영할 수 있는가?
  - 최종 turn에서 해당 정보를 직접 묻지 않고, 모델은 이를 맥락상 추론 (단순 키워드 매칭 이상의 요구)
  - 초반 알레르기/취향 제약을 잊지 않고 유지하는가?
    - 견과류 알레르기에 대해 언급했으면, 마지막까지 레시피에 견과류가 안들어가는지
  - 관련없는 과거 정보를 끌어다가 (과잉)반영하진 않는가?
- Reliable Versioned Editing: coreference 등 해소 → 올바른 버전 복기 → 편집 업데이트
  - 여행 일정, 이메일, 코드 등 여러 버전을 오가며 정확한 참조 버전을 그대로 copy하고 그 위에 새 수정이 가능한지
  - 끝시간 바꾸기 전 일정으로 돌아가서 보여줘 …
- Self-Coherence: 모델 스스로의 발언이 일관되는지 확인
  - 유저의 유도에 따라서도 아첨하는 등 버복하지 않고 자기 모순이 없는지
  - 이제 다 된거죠? 같은 함정 질문
데이터셋 구축: 평균 5-turn의 총 273개 대화
- Instruction Retention(113), Inference Memory(69), Reliable Versioned Editing(41), Self-Coherence(50)
- MMSE: 데이터셋 생성 파이프라인
  - 목표: 현실적이고 모델들이 실제로 틀릴 만한 예제 구축
  - (모델이) 구축: role 구분하여 LLM 활용
    - Planner: topic hierarchy + persona + 4가지 문제카테고리중 1개 → blueprint 생성
    - User Agent: blueprint를 실제 대화 turn으로 구체화
    - Responder: 6개 Frontier 모델 중 랜덤 선택 → 응답 생성 (3개 이상이 실패해야 남김)
  - (사람이) 편집: 전체 중 약 1/4 정도의 문장 수정
    - 각 instance에 대해 맨 마지막 응답만 보고.
    - 루브릭 설계 추가 : yes or no로 채점 가능하도록
  - (사람이) 검수: 두 명의 독립된 검수자가
    - 자연스러운지
    - 정말 1개의 문제 분류만 타깃하는지
    - 6개 후보모델중 진짜 3개 이상이 실패하는지
    - 루브릭 질문에 명확하게 yes or no인지

Effects

baselines: closed 모델 6종과 opensource 모델
Table2 모든 frontier 모델이 50점 이하 달성
- Claude 3.5 Sonnet이 약 41점으로 최고 성능
- o1-preview는 37점 정도 (Inference Memory & Versioned Editing에 능숙)
- GPT-4o 등 나머지는 그보다 낮음
- Table2 사람이 평가 Table3 모델이 평가 Table4 모델과 사람 align 확인 (정합도 94%로 높다) Table5 opensource 모델
turn 수는 상관 없고 추론력의 문제

Personal note. 지금 진행하고 있는 memory 연구에서 보려고 했던 다양한 문제의식들이 어느정도 담긴 벤치마크로 보입니다. 이 벤치마크를 잘 풀게 하는 것도 충분한 기여가 될 수 있어 보이기도 합니다. 데이터셋도 공개되어 있는데 눈으로 봤을때는 품질도 괜찮아 보입니다. 저자들은 일부 데이터는 만들고도 비공개했다고 하는데, 루브릭이 결국 binary임에도 아직 모델이 잘 판단하지 못하기 때문으로, 평가의 사람-모델간 정합도를 위해 조절한 것으로 보이며, 향후 공개 예정이라고 합니다.