MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents
- Authors: Haoran Tan, Zeyu Zhang, Chen Ma, Xu Chen, Quanyu Dai, Zhenhua Dong
- Paper: https://arxiv.org/pdf/2506.21605
- Affiliation: Huawei, Renmin Univ.
- Published: June 20, 2025
TL; DR
multi-scenario (participation & observation) + multi-level (factual & reflective) ๋ฉ๋ชจ๋ฆฌ ์ ํ ํตํฉ, multi-metric evaluation๋ฅผ ์ฌ์ฉํ๋ LLM-based agent์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ธ MemBench ์๊ฐ

Background
LLM-based memory๋ annotation ํน์ task-based metrics์ผ๋ก ํ๊ฐ๋๊ณ , participation setting์์ factual memory ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ observation ํน์ reflective memory์ ๋ํ ์๋๋ฆฌ์ค ๊ณ ๋ ค ๋ชปํจ. (accuracy ์ด์์ผ๋ก ํ๊ฐ๋์ง ๋ชปํด์ด)
- LongMemEval, LoCoMo ๋ฑ ์ต๊ทผ ์ฐ๊ตฌ๋ ์ฌ์ ํ factual memory์ ํ์ , reflective ํ ์ถ๋ก ์ด๋ agent์ ์๋์ฑ์ ์๋ฎฌ๋ ์ด์ ํ์ง ๋ชปํจ.
Problem States
๋ฒค์น๋งํฌ๋ ์๋ ์ธ ๊ฐ์ง๋ฅผ ๋ชจ๋ ํฌํจํด์ผ ํ๋ค
- active participation๋ฟ๋ง ์๋๋ผ passive observation์ ํฌ๊ดํ๊ณ ,
- factualํ ๋ฟ๋ง ์๋๋ผ reflective memory๋ฅผ ํฌํจํ๋ฉด์
- accuracy, recall, efficiency, memory capacity ๋ฑ์ ํ๊ฐ
Suggestions
- ๋ฐ์ดํฐ์
๊ตฌ์ถ ์ ๋ตย #1 user relation graph: user ์์ + ๊ด๋ จ์/์ฅ์/์ฌ๊ฑด/์์ดํ
๋ฑ entity
- ๋ํ ์ปจํ ์คํธ์ ํ์ํ ์ฌ์ค ์ ๋ณด ๋ฐ ์ฑ์ฐฐ ์ ๋ณด ์์ฑ ๊ธฐ๋ฐ ๊ตฌ์ถ
- entitiy ๋ณ property ๋ณ๋
- Reflective Memory๋ฅผ ์ํด ์ฌ์ฉ์ ์ทจํฅ ๋ฐ์
- ์ถ์ฒ ์์คํ ๋ฐ์ดํฐ์ (MovieLens, Food, Goodreads ๋ฑ์ ์ค์ ๊ณต๊ฐ ์ถ์ฒ ๋ฐ์ดํฐ) ํ์ฉ
- ์ข์์ ๋๋ ํ์ ๋์ ํญ๋ชฉ๋ค > LLM์ด ์์ ์ ํธ๋(high-level preference) ์ถ์ถ
- ์์ ์ทจํฅย โ๏ธย ํ์ ์ฌ์ค ์์ฑ ๊ฐ 1:N ์ฌ์ (dictionary) ๊ตฌ์ฑ
- ์: โSalted Maple Ice Creamโ, โPecan Pralineโ ๋ฑ์ ์ข์ํจ > ์ทจํฅ: โSweet and Saltyโ > โSweetโ : [Apple Pie, Pecan Pie, Honeyโฆ]
- ๋ฐ์ดํฐ์
๊ตฌ์ถ ์ ๋ตย #2 Dialogue Session + QA pair
- Observation:ย Agent๋ ์ฌ์ฉ์ ๋ฉ์์ง๋ฅผ ๋ฃ๊ธฐ๋ง ํ๊ณ ๋ฐ์ํ์ง ์์
- ๋ฉ์์ง๋ ๋จ์ ์ง์ ๋ฌธ์ผ๋ก ์์ฑ (LLM ์ฌ์์ฑ ์ฌ์ฉ)
- input: โIโll go to the Build Start event next weekโ>rewrite: โMy Build Start 2024 is happening next week on Monday at 7:00 PM.โ
- Participation:ย Self-dialogue ๋ฐฉ์์ผ๋ก ์ฌ์ฉ์์ ์์ด์ ํธ ๊ฐ ๋ค์ค ํด ๋ํ ์์ฑ
- Assistant๋ ์ ๋ต์ ๋ชจ๋ฅด๊ณ (์ ๋ณด์ฑ๊ฒฉ ์๋)๋ฐ์๋ง ํจ (์๋๋ฆฌ์ค ๊ธฐ๋ฐ prompt๋ก ์์ฑ)
- key evidence ๋ฌธ์ฅ์ ์ค๊ฐ ์ฝ์ : ๋ค์ํ reasoning ์ ํ์ ๋ฐ์ํ ๋ํ ์ค๊ณ (QA Pair์์ ํ์ฉ)
- ์๊ฐ ๊ฐ๊ฒฉ ๊ธฐ๋ฐ ์ธ์
๋ถํ :
- ๋์ผ ์ธ์ ๋ด์์๋ ์งง์ ์๊ฐ ๊ฐ๊ฒฉ (1๋ถ ๋จ์)
- ์ธ์ ๊ฐ์๋ ๊ธด ์๊ฐ ๊ฐ๊ฒฉ (ํ๋ฃจ ๊ฐ๊ฒฉ ๋ฑ) ๋ถ์ฌ
- QA Pair: ๋จ์ผ/๋ค์ค hop, ๋น๊ต, ์ง๊ณ, ์ ์ ์์ฝ ๋ฑ
- ๋ฏธ๋ฆฌ ์ฝ์ ๋ย evidence๊ฐ ์๋ Dialogue๋ก๋ถํฐ ๋์ถ ๊ฐ๋ฅํ๋๋ก ์ค๊ณ
- MCQ๋ก ๋ณํํ์ฌ ์ ํ๋ ํ๊ฐ ์ฉ์ด์ฑ ํ๋
- Observation:ย Agent๋ ์ฌ์ฉ์ ๋ฉ์์ง๋ฅผ ๋ฃ๊ธฐ๋ง ํ๊ณ ๋ฐ์ํ์ง ์์
- ํ๊ฐ์ฉ sub datset
- Sub-dataset 1(์ผ๋ฐ ํ ์คํธ์ฉ): ํ๊ท 10k tokens/session
- Sub-dataset 2(์ฅ๊ธฐ ๋ฉ๋ชจ๋ฆฌ ํ ์คํธ์ฉ): ํ๊ท 100k tokens/session
- ๋ ธ์ด์ฆ ์ฝ์ : ํ๊ฐ ์ ์ผ๋ถ ์ธ์ ์ ๋ฌด๊ดํ ์ ๋ณด(๋ด์ค ๋ํ ์ธ์ ) ์ฝ์ ํด ์ฉ๋ ํ๊ณ(๋ฉ๋ชจ๋ฆฌ ๋ฆฌํ ์ /์ ์ง๋ ฅ) ํ ์คํธ
Effects
- ํ๊ฐ ๋ฐฉ๋ฒ: ์์ด์ ํธ๋ ์๊ฐ ์์์ ๋ฐ๋ผ ๋งค turn ๋ํ๋ฅผ ๋ฐ์ผ๋ฉฐ ํ์ตํจ
- ๊ฐ ํ ์คํธ์์ Q์ ๋ํด, ๊ณผ๊ฑฐ tโ1 ๋ผ์ด๋๊น์ง์ ๋ด์ฉ์ memory module์ ํตํด์๋ง ์ ๊ทผ ๊ฐ๋ฅ, ํ์ฌ t ๋ผ์ด๋์๋ ์๋ก์ด ์ ๋ณด ์ฃผ์ด์ง
- ์ฆ, Memory Module์ด ๋๋ฐ๋ก ์๋๋๋ฉด ์์ ์ ๋ณด๋ฅผ ์ ๊บผ๋ด์ฐ์ง๋ง, ์คํจํ๋ฉด ์ด์ ์ ๋ณด๋ฅผ ์์ด๋ฒ๋ฆฐ ๊ฒ์ฒ๋ผ ์๋ตํ ๊ฒ์ผ๋ก ์์
- Q์ ๋ํด ๋ง๋ ๋ต์ ํ๋ฉด ๊ธฐ์ต์ ์ ์งํ๋ค๊ณ ํ๋จ, ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ ๊ธฐ์ต ์ ์ง ์คํจ๋ก ๊ฐ์ฃผ
- baseline
- FullMemory: ๋ชจ๋ ๋ํ ๊ธฐ์ต, ๋น ๋ฅด์ง๋ง ์๋์ฐ ์ ํ
- RecentMemory: ์ต๊ทผ ์ ๋ณด๋ง ๊ธฐ์ต, ๊ฐ์ฅ ๊ฐ๋จํ์ง๋ง ์์ window size
- RetrievalMemory: embedding ๊ฒ์ ๊ธฐ๋ฐ = retrieval ์ฑ๋ฅ์ ์ข์ฐ
- GenerativeAgent: ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ์ถ๋ก ๊ธฐ์ต, ๋ํํ ๊ธฐ์ต ๋ณต์
- MemoryBank: ์ธ๋ถ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉํ์ฌ LC ์ฌ์ฉํ๋ write ๋๋ฆผ
- MemGPT: ์ด์์ฒด์ ํ ๋ฉ๋ชจ๋ฆฌ ์ปจํธ๋กค, read๊ฐ ๋๋ฆผ
- SCMemory: self-controlled memory, ๋ถ์์ ํ๋ค๊ณ ๋ณด๊ณ ๋จ
- Results
- Factual Memoryย
Tab3- RetrievalMemory๊ฐ ํญ์ ์ต๊ณ ์ฑ๋ฅ, ํนํย
Observationย ์๋๋ฆฌ์ค์์ ๊ฐ์ฅ ์์ ์ - FullMemory, RecentMemory๋ token ์๊ฐ ๋ง์์ง๋ฉด window size ๋ฐ์ผ๋ก ๋ฐ๋ ค์ ๊ธ๊ฐ
- MemGPT๋ ์ ํ๋๋ ๋ฎ์ง๋ง ๊ธด context ๋์์ ํ๊ท ์ด์
- RetrievalMemory๊ฐ ํญ์ ์ต๊ณ ์ฑ๋ฅ, ํนํย
- Reflective Memoryย
Tab4ย ๋ํ ์ค์์ ์ง์ ํํ๋์ง ์์ ๊ณ ์ฐจ์์ ๋งฅ๋ฝ (์ ํธ๋ ๊ธฐ๋ถ ๋ฑ)๋ฅผ ๊ธฐ์ตํ ์ ์๋๊ฐ?- ์ทจํฅ ๊ธฐ์ต์ ๋๋ถ๋ถ ์ ์ํํ์ง๋ง, ๊ฐ์ ๊ธฐ์ต์ ๋ชจ๋ ๋ฉ์ปค๋์ฆ์ด ์ด๋ ค์ํจ
- GenerativeAgent๋ reflective ๊ธฐ์ต ์ฒ๋ฆฌ์ ๊ฐ์ (์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ)
- MemoryBank๋ย
Observationย ์๋๋ฆฌ์ค์ ํํด ๊ฐ๋ ฅํ์ง๋ง ์๋ ๋๋ฆผ
- Memory Capacityย
Fig5: Sub-dataset 2 ์ยObservationย ์๋๋ฆฌ์ค ์ฌ์ฉ: ํญ์ Evidence๊ฐ ์์, ์ง๋ฌธ์ด ๋ค์ ๋ฑ์ฅ- Retrieval ๊ธฐ๋ฐ์ ์ ํ๋ ์ ์ง์ ๊ฐ์
- SCMemory๋ MemGPT ๊ฐ์ ๊ตฌ์กฐํ๋ ๊ฒฝ์ฐ๋ ์ผ์ ํ ํฐ ์ ์ดํ ๊ธ๊ฒฉํ ์ฑ๋ฅ ํ๋ฝ > ๋ฉ๋ชจ๋ฆฌ ์ค๊ณ์ ์ค์ผ์ผ ๋์๋ ฅ์ ๋ฐ๋ผ ์ฑ๋ฅ ์ง์ ์ฌ๋ถ๊ฐ ๊ฐ๋ฆฐ ๊ฒ์ผ๋ก ํด์ ๊ฐ๋ฅ
- Backbone LLM ๋น๊ตย
Tab5ย : Qwen2.5-7B-Instruct, GPT-4o-mini, Meta-LLaMA-3.1-8B, glm-4-9b-chat- GPT-4o-mini๋ reflective memory ํนํ ๊ฐํจ
- Meta-LLaMA๋ factual์๋ ์ฝํ์ง๋ง reflective์ ๊ฝค ๊ด์ฐฎ์ ์ฑ๋ฅ
- glm์ overall ๋ฎ์ ์ฑ๋ฅ, ํนํ factual์ ์ทจ์ฝ
- Factual Memoryย
Personal note. ํ๊ฐ ๋ฐฉ์์ ๋จ์ํํ ์ ์๋๋ก ์ค๊ณํ ๋ถ๋ถ์ด takeaway ๊ฐ์ต๋๋ค. ํ๊ฐ๋ฅผ agent response๋ก ํ๋ ๊ฒ์ ์ด๋ ค์์ ๋ํด์๋ ์ตํ ๋๊ปด์จ ๋ฐ ์๊ณ , ์ด๋ฅผ ์ฐํํ๊ธฐ ์ํด ๊ฐ์ ์ง์(QA pair)๋ฅผ ํจ๊ป ๊ตฌ์ถํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ธ ์ถ์ธ์ธ ๊ฒ์ ์ฌํ์ธํ๋ ๊ธฐํ์ด๊ธฐ๋ ํ์ต๋๋ค. ๋ ผ๋ฌธ ๊ณต๊ฐ๋ ๋ณด๋ฆ์ด ์ฑ ์๋ ๊ฒ์ ๋นํด ๋ฌด๋ ค ๋ฐ๋ ์ ๋ง์ง๋ง ์ปค๋ฐ์ด ์ฐํ ๋ ํฌ์งํ ๋ฆฌ๊ฐ ๊ณต๊ฐ๋์ด์๊ธฐ๋ ํ๋ฐ ๋ฆฌ๋๋ฏธ ํฌํจ ์ค๋ช ์ด ์์ง ์์ด์ ์ฐจ์ฐจ ๋ฐ์ดํฐ๋ ์ดํด๋ณผ ์ฌ์ง๊ฐ ์์ด๋ณด์ ๋๋ค. ์์ธ๋ฌ ์ ๋ณด ์๋ ๋ฐ์ = reaction์ ๊ณ ๋ คํ ๊ฒ๋ ์ผ์๋ํ์ค๋ผ์ง ํ๋ค๊ณ ๋๋๋๋ค๋ง, ๊ตฌ์ถ ๋ฐฉ์ ์์ฒด๋ ๊ตฌ์์ผ๋ก ๋ณด์ฌ์ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์์์ง ๊ณ ๋ฏผํด๋ณด๊ฒ ์ต๋๋ค.