MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents

March 6, 2025 1 minute read

Meta info.

Authors: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You
Paper: https://arxiv.org/pdf/2503.01935
Affiliation: UIUC
Published: March 3, 2025
Code: https://github.com/MultiagentBench/MARBLE

TL; DR

협업적/경쟁적 상황에서 에이전트끼리 상호작용하는 시스템 평가에 대한 벤치마크 MARBLE 제안

Background

AgentBench, ToolBench, HumanEval 등, 단일 에이전트 혹은 특정 도메인 환경에 국한된 에이전트 환경에 대한 벤치마크

Problem States

multi-agent collaboration 어떻게 평가할 수 있을까?

RQ1 multi-agent는 어떻게 coordinate 잘할까
RQ2 multi-agent가 어떻게 협력 혹은 경쟁 사이 균형을 맞출까
RQ3 어떤 coordination 구조 혹은 planning 전략이 최적일까

Suggestion

Multi-agent cooRdination Backbone with LLM Engine(MARBLE)

구성:
- Coordination Engine: agent간 관계 및 소통 담당
- Agent Graph Module: agent interactions 정의 (e.g., collaboration, supervision, negotiation)
- Cognitive Module: Theory-of-Mind 와 adaptive learning으로 전략을 동적으로 개선
Coordination 방식 종류:
- Star: single planner가 actor들에게 작업 할당 (planner 병목 우려)
- Tree: planner가 계층적으로 여럿 (하위 actor의 정보 손실 우려) worst
- Graph: 모두가 연결된 완전 분산형 decision-making (복잡성 우려) best
- Chain: Sequential interaction (순차성에대한 병목 우려)
Planning Strategies 종류: vanilla prompting, CoT, Group Discussion(agent끼리 전략을 개선시킴), Cognitive evolving planning(agent들이 이전 실행 결과 보고 전략 개선best)
Benchmark 구성: Milestone-Based Evaluation
- collaboration: research collaboration, Minecraft Building, Database Debugging, Coding Collaboration
- Competition: Bargaining, Werewolf

Effects

gpt-4o-mini가 가장 우수
graph protocol 방식이 가장 우수
cognitive evolving planning 방식이 가장 우수
에이전트는 많을수록 성능 하락 (5명 초과시 coordination overhead)
iteration은 7회까지는 성능 향상되나 10회 반복 이후는 되려저하됨
werewolf 게임에서는 emergent deception 전략 발생: 전략적으로 침묵하거나 신뢰극화된 협업 발생
gpt-4o-mini나 gpt-3.5-turbo 정도면 Function calling 거의 완전히 수행하지만, llama 3.1-8b나 3.3-70b는 70% 정도만 성공

Personal note. 마지막 Finidngs의 ablation에서 특이한건 llama-3.1 70b는 50%도 못했다고.. 🤔 오늘 신입생 스터디에서 발표해준 multi-agent 나 시뮬레이션 관련한 내용이기도 하고, 연구 제안 넣었던 거 될진 모르겠지만 의도했던 느낌의 벤치마크인 것 같아서 공유드립니다.

kpi metric은 전에 유리가 랩세미나에서 소개해줬던 것 같긴 한데 결국 마일스톤을 사람이 정하든 실행결과보고 동적으로 정하든 그거 기반으로 세는 것이 일반적인듯 합니다 (다른 방법이 없기도 하고 agent 행동 추적 목적인듯)