MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents
Meta info.
- Authors: Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You
- Paper: https://arxiv.org/pdf/2503.01935
- Affiliation: UIUC
- Published: March 3, 2025
- Code: https://github.com/MultiagentBench/MARBLE
TL; DR
ํ์
์ /๊ฒฝ์์ ์ํฉ์์ ์์ด์ ํธ๋ผ๋ฆฌ ์ํธ์์ฉํ๋ ์์คํ
ํ๊ฐ์ ๋ํ ๋ฒค์น๋งํฌย MARBLEย ์ ์








Background
AgentBench, ToolBench, HumanEval ๋ฑ, ๋จ์ผ ์์ด์ ํธ ํน์ ํน์ ๋๋ฉ์ธ ํ๊ฒฝ์ ๊ตญํ๋ ์์ด์ ํธ ํ๊ฒฝ์ ๋ํ ๋ฒค์น๋งํฌ
Problem States
multi-agent collaboration ์ด๋ป๊ฒ ํ๊ฐํ ์ ์์๊น?
- RQ1 multi-agent๋ ์ด๋ป๊ฒ coordinate ์ํ ๊น
- RQ2 multi-agent๊ฐ ์ด๋ป๊ฒ ํ๋ ฅ ํน์ ๊ฒฝ์ ์ฌ์ด ๊ท ํ์ ๋ง์ถ๊น
- RQ3 ์ด๋ค coordination ๊ตฌ์กฐ ํน์ planning ์ ๋ต์ด ์ต์ ์ผ๊น
Suggestion
Multi-agent cooRdination Backbone with LLM Engine(MARBLE)
- ๊ตฌ์ฑ:
- Coordination Engine: agent๊ฐ ๊ด๊ณ ๋ฐ ์ํต ๋ด๋น
- Agent Graph Module: agent interactions ์ ์ (e.g., collaboration, supervision, negotiation)
- Cognitive Module: Theory-of-Mind ์ adaptive learning์ผ๋ก ์ ๋ต์ ๋์ ์ผ๋ก ๊ฐ์
- Coordination ๋ฐฉ์ ์ข
๋ฅ:
- Star: single planner๊ฐ actor๋ค์๊ฒ ์์ ํ ๋น (planner ๋ณ๋ชฉ ์ฐ๋ ค)
- Tree: planner๊ฐ ๊ณ์ธต์ ์ผ๋ก ์ฌ๋ฟ (ํ์ actor์ ์ ๋ณด ์์ค ์ฐ๋ ค)ย
worst - Graph: ๋ชจ๋๊ฐ ์ฐ๊ฒฐ๋ ์์ ๋ถ์ฐํ decision-making (๋ณต์ก์ฑ ์ฐ๋ ค)ย
best - Chain: Sequential interaction (์์ฐจ์ฑ์๋ํ ๋ณ๋ชฉ ์ฐ๋ ค)
- Planning Strategies ์ข
๋ฅ: vanilla prompting, CoT, Group Discussion(agent๋ผ๋ฆฌ ์ ๋ต์ ๊ฐ์ ์ํด), Cognitive evolving planning(agent๋ค์ด ์ด์ ์คํ ๊ฒฐ๊ณผ ๋ณด๊ณ ์ ๋ต ๊ฐ์
best) - Benchmark ๊ตฌ์ฑ: Milestone-Based Evaluation
- collaboration: research collaboration, Minecraft Building, Database Debugging, Coding Collaboration
- Competition: Bargaining, Werewolf
Effects
- gpt-4o-mini๊ฐ ๊ฐ์ฅ ์ฐ์
- graph protocol ๋ฐฉ์์ด ๊ฐ์ฅ ์ฐ์
- cognitive evolving planning ๋ฐฉ์์ด ๊ฐ์ฅ ์ฐ์
- ์์ด์ ํธ๋ ๋ง์์๋ก ์ฑ๋ฅ ํ๋ฝ (5๋ช ์ด๊ณผ์ coordination overhead)
- iteration์ 7ํ๊น์ง๋ ์ฑ๋ฅ ํฅ์๋๋ 10ํ ๋ฐ๋ณต ์ดํ๋ ๋๋ ค์ ํ๋จ
- werewolf ๊ฒ์์์๋ emergent deception ์ ๋ต ๋ฐ์: ์ ๋ต์ ์ผ๋ก ์นจ๋ฌตํ๊ฑฐ๋ ์ ๋ขฐ๊ทนํ๋ ํ์ ๋ฐ์
- gpt-4o-mini๋ gpt-3.5-turbo ์ ๋๋ฉด Function calling ๊ฑฐ์ ์์ ํ ์ํํ์ง๋ง, llama 3.1-8b๋ 3.3-70b๋ 70% ์ ๋๋ง ์ฑ๊ณต
Personal note. ๋ง์ง๋ง Finidngs์ ablation์์ ํน์ดํ๊ฑด llama-3.1 70b๋ 50%๋ ๋ชปํ๋ค๊ณ ..ย ๐ค ์ค๋ ์ ์ ์ ์คํฐ๋์์ ๋ฐํํด์ค multi-agent ๋ ์๋ฎฌ๋ ์ด์ ๊ด๋ จํ ๋ด์ฉ์ด๊ธฐ๋ ํ๊ณ , ์ฐ๊ตฌ ์ ์ ๋ฃ์๋ ๊ฑฐ ๋ ์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง ์๋ํ๋ ๋๋์ ๋ฒค์น๋งํฌ์ธ ๊ฒ ๊ฐ์์ ๊ณต์ ๋๋ฆฝ๋๋ค.
kpi metric์ ์ ์ ์ ๋ฆฌ๊ฐ ๋ฉ์ธ๋ฏธ๋์์ ์๊ฐํด์คฌ๋ ๊ฒ ๊ฐ๊ธด ํ๋ฐ ๊ฒฐ๊ตญ ๋ง์ผ์คํค์ ์ฌ๋์ด ์ ํ๋ ์คํ๊ฒฐ๊ณผ๋ณด๊ณ ๋์ ์ผ๋ก ์ ํ๋ ๊ทธ๊ฑฐ ๊ธฐ๋ฐ์ผ๋ก ์ธ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ธ๋ฏ ํฉ๋๋ค (๋ค๋ฅธ ๋ฐฉ๋ฒ์ด ์๊ธฐ๋ ํ๊ณ agent ํ๋ ์ถ์ ๋ชฉ์ ์ธ๋ฏ)