Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory
Meta info.
- Authors: Tianxin Wei, Noveen Sachdeva, Benjamin Coleman, Zhankui He, Yuanchen Bei, Xuying Ning, Mengting Ai, Yunzhe Liโ , Jingrui He, Ed H. Chi, Chi Wang, Shuo Chen, Fernando Pereira, Wang-Cheng Kang, Derek Zhiyuan Cheng
- Paper: https://arxiv.org/pdf/2511.20857
- Affiliation: Google DeepMind, UIUC
- Published: November 25, 2025
TL; DR
LLM Agent๊ฐ test-time์ ๊ณผ๊ฑฐ ๊ฒฝํ์ ์ค์ค๋ก ์งํ์ํค๋ฉฐ ํ์ตํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ streaming benchmark Evo-Memory ์ ์, ExpRAG / ReMem ๊ฐ์ baseline์ ์ ์ํ์ฌ ๊ฒฝํ ์ฌ์ฌ์ฉ ๊ธฐ๋ฐ ์ฑ๋ฅ ํฅ์์ ๋ํ ๋น๊ต ํ๊ฐ ๊ธฐ๋ฐ ์ ์

Background
- LLM์ memory system์ ๋์คํ๋์๋๋ฐ๋ ์ฌ์ ํ ๊ธฐ์ต์ recallํ๋ ๊ฒ์ ์ค์ฌ์ผ๋ก ์ฐ๊ตฌ ์งํ
- recallํ ๊ธฐ์ต์ ์ ์ฐ๋์ง์ ๋ํ ํ๊ฐ ๋ถ์กฑ: test-time learning / self-evolving memory ๋ฑ ์ค์ ๋ก ์ ์ฐพ์๋ค๊ฐ ์จ์ ์ฑ๋ฅ์ด ์ค๋ฅด๋์ง
- recall: ๊ณผ๊ฑฐ ์ ๋ณด๋ฅผ ๋จ์ํ ๋ค์ ๋งํ ์ ์๋ ๋ฅ๋ ฅ
- (experience) reuse: ๊ณผ๊ฑฐ ์์ ์์ ํ์ตํ ํด๊ฒฐ ์ ๋ต์ ์๋ก์ด ์์ ์ ์ ์ฉํ๋ ๋ฅ๋ ฅ
Problem States
reuse๋ฅผ ํ๊ฐํ๊ธฐ์ํ benchmark ์ ์
- ์ ์ memory: append > retrieval๋ก ์ค์ค๋ก memory๋ฅผ ์ฌ๊ตฌ์ฑํ๊ฑฐ๋ ๊ฐ์ ํ์ง๋ ์์ (์ด๊ธฐ ๊ตฌ์กฐ๋ฅผ ์ ์ง)
- memory๊ฐ ์ด๋ป๊ฒ ์ฑ๋ฅ์ ๋ณํ์ํค๋์ง๋ ํ์ธ๋์ง ์์
- TTL(test time learning)์ ๋ํ memory ์ฐ๊ตฌ ๋ถ์กฑ
- Research Objective
- ๋ค์ํ ๋๋ฉ์ธ์ ์์ฐ๋ฅด๋ streaming bench ์ ์
- ์ฌ๋ฌ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ ํ๋กํ ์ฝ์์ ๋น๊ต
- test-time์์ agent๊ฐ ์ง์ง learnํ๋์ง ์ ๋์ ์ธก์ ์๋
Suggestions
- memory-augmented agent ๊ณต์ํ : RAG, LTM(long-term memory), workflow memory๋ฑ ํตํฉ
- t ์๊ฐ์ x_t ์ ๋ ฅ์ ๋ํด
- R: retrieval module โ R_t = R(M_t, x_t)
- C: Context Constructor โ \tilde{C}_t = C(x_t, R_t)
- F: base LM โ prediction \hat{y} = F(\tilde{C}_t)
- U: Memory Update pipeline
- ๊ฒฝํ m_t = h(x_t, \hat{y}_t, f_t) ์์ฑ
- M_{t+1} = U(M_t, m_t)
- dataset์ streaming taks๋ก ์ฌ์ ์
- ๊ฐ ๋ฒค์น๋งํฌ๋ task trajectory \tau = {(x_1,y_1),โฆ, (x_T,y_T)} ๋ก ๋ณํ ๊ฐ๋ฅ, ์ด์ task ๊ฒฝํ ์ดํ task ์ฑ๋ฅ์ ์ํฅ ๋ฏธ์น๋๋ก ์ค๊ณ
- ExpRAG: Experience-level RAG
- baseline์ผ๋ก์ ๊ฐ ๊ฒฝํ์ structured text๋ก ์ ๋ฆฌ > ํ์ฌ task์ ์ ์ฌํ ๊ณผ๊ฑฐ ๊ฒฝํ์ top-k retrieval, Memory update๋ append ๋ฐฉ์
- ๊ณผ๊ฑฐ task๋ฅผ ICL context์ฒ๋ผ ํ์ฉํ๋ ๋ฐฉ์์ผ๋ก ์ค๊ณ
- ReMem: ThinkโActโRefine ๊ธฐ๋ฐ Self-Evolving Memory Agent
- ReAct ๊ตฌ์กฐ ํ์ฅํ์ฌ Refine (=๋ฉ๋ชจ๋ฆฌ ์กฐ์) action ์ถ๊ฐ
- Think: ๋ด๋ถ reasoning ์์ฑ
- Act: API/tool/์ต์ข ๋ต๋ณ ํ๋
- Refine: memory ๊ฒ์ ์์ฝ ์ญ์ ์ฌ๊ตฌ์ฑ ์ํ
- ๊ฐ ์ํ์์ agent๊ฐ action ์ค ํ๊ฐ์ง ํ1
- ReAct ๊ตฌ์กฐ ํ์ฅํ์ฌ Refine (=๋ฉ๋ชจ๋ฆฌ ์กฐ์) action ์ถ๊ฐ
Effects
- Tasks
- single-turn reasoning + QA: MMLU-Pro, GPQA-Diamond, AIME-24/25, ToolBench
- multi-turn interaction(AgentBoard): AlfWorld, BabyAI, ScienceWorld, Jericho, PDDLBench
- Backbone: Gemini 2.5 Flash, Flash-lite, Pro / Claude 3.5 Haiku, 3.7 Sonnet
- Baseline:
- no-memory: History, ReAct, Amem
- Adaptive memory: SelfRAG, MemOS, Mem0, LangMem
- Procedural memory: DC(Dynamic Cheatsheet), AWM
- ์ ์(ours): ExpRecent, ExpRAG, ReMem
- Metrics:
- Accuracy, Exact Match
- Success Rate(S), Progress(P)
- ํ๊ท step ์
- Task sequence robustness
- Task similarity correlation
- Memory pruning ratio
- Results:
Tab1single-turn- ExpRAG, ReMem์ด ๋๋ถ๋ถ ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ๋์ ํ๊ท ์ํ
- ReAct๋Gemini Flash ๋ฑ์์ ์คํ๋ ค ์ฑ๋ฅ ์ ํ
- ReMem์ backbone ์ํ๊ณ ๋ชจ๋์์ ์ต๊ณ ํน์ ๊ทธ์ ์คํ๋ ์ฑ๋ฅ
Tab2multi-turn- ReMem์ด AlfWorld, ScienceWorld ๋ฑ์์ ํฐ ํญ ์ฑ๋ฅ ํฅ์
- task ์ํ ์ํ ๊ธธ์ด๊ฐ ๊ธธ์๋ก self-evolving memory ํจ๊ณผ ์ฆ๋
Fig4๋ฉ๋ชจ๋ฆฌ๊ฐ ์ธ์ ์ ์ตํ๊ฐ: Task similarity๊ฐ ๋์์๋ก (๋์ง์ ์ธ ๊ฒ ๋ฐ๋ณต๋ ์๋ก) ReMem์ ์ฑ๋ฅ ํฅ์์ด ํฌ๋คFig5๋ชจ๋ bench์์ ReMem์ ํ๊ท step ์ ๊ฐ์ = ๋ ํจ์จ์ Tab3Task ์์๋ฅผ ์ฌ์ด๊ฑฐ > ์ด๋ ค์ด๊ฑฐ ํน์ ๊ทธ ๋ฐ๋์ ๋ํด- baseline๋ค์ด ๋ถ์์ ํ๊ฑฐ์ ๋นํด ReMem์ ๋ ๊ฒฝ์ฐ ๋ชจ๋ ๋์ robustness ์ ์ง
Tab4๋ค๋ฅธ ๋ฉ๋ชจ๋ฆฌ ๋ฒ ์ด์ค๋ผ์ธ๋ค์ noise์ ์ทจ์ฝํ๋, ReMem์ ์คํจ ๊ฒฝํ์ด ์์ฌ๋ S/P๊ฐ ์์ ์ ์ ์ง- refine action์ด ์ด๋ฅผ ์ ์ ํ๋ ๋ฏ
Fig6task index๊ฐ ์ฆ๊ฐํ ์๋ก ReMem์ cumulative success curve๊ฐ History๋ณด๋ค ๊พธ์คํ ๋์ = test-time learning์ ์ง์ ์ ์ฆ๊ฑฐ๋ผ ์ฃผ์ฅFig7Dataset์ ๋ฐ๋ผ pruning ๋น์จ ์ฐจ์ด:- GPQA ~36.8% : ๋ค์๋๊ฐ ๋์ ๋ฉ๋ชจ๋ฆฌ ํํฐ๋ง ํ์ํ๋ฐ ๋ฐํด
- AIME ~10-17% :๊ฒฝํ ๋๋ถ๋ถ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ๋ค๊ณ
Personal note. ์ง๊ธ๊น์ง memory ์ฐ๊ตฌ์์ ๋ต๋ตํ๊ณ ๋ชจํธํ๋ ๋ถ๋ถ๋ค์ด ์ด ๋ ผ๋ฌธ์ ํตํด์ ํ๊ฒฐ ์ ๋ฆฌ๋ ๋๋์ ๋ฐ์์ต๋๋ค. ํ์ฌ ์ฐ๊ตฌ์ baseline ์ ์ ํ๋ ๊ณผ์ ์์ ์ฐธ๊ณ ํด๋ณผ๋งํ๊ณ , ๋ํ ์ผ๋ ๋ ์ดํด๋ณด๊ฒ ์ต๋๋ค.