MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks
Meta info.
- Authors: Zexue He, Yu Wang, Churan Zhi, Yuanzhe Hu, Tzu-Ping Chen, Lang Yin, Ze Chen, Tong Arthur Wu, Siru Ouyang, Zihan Wang, Jiaxin Pei, Julian McAuley, Yejin Choi, Alex Pentland
- Paper: https://arxiv.org/abs/2602.16313
- Project: https://memoryarena.github.io/
- Data: https://huggingface.co/datasets/ZexueHe/memoryarena
- Affiliation: Stanford Univ., UCSD, UIUC, Princeton Univ., Univ. of Pittsburgh, 2077AI
- Published: February 21, 2026
TL; DR
multi-session + interdependent subtask 환경의 Memory-Agent-Environment loop를 평가하는 benchmark를 제안하고, 기존 memory system이 실제 agentic setting에서 매우 취약함을 실증



Background
- 기존 memory benchmark (LoCoMo, LongMemEval, MemoryBench)는 주로 post-hoc QA 기반 recall 평가 중심
- static conversational memory 평가에는 유용하지만, action-driven setting에는 한계
- environment가 변화하는 상황에서 기억을 decision에 실제로 사용하는지 평가하기 어려움
- 기존 agentic benchmark (WebArena, SWE-branch 등)는 interactive execution/tool use는 다루지만 single-session 중심
- persistent memory 필요성이 낮고 session 간 정보 재사용 압박이 약함
Problem States
memory는 단순 recall이 아니라, multi-session task에서 latent constraint를 유지하면서 action selection에 직접 기여해야 한다.
- subtask 간 dependency로 인해 이전 선택이 이후 선택공간을 제약
- environment가 이전 constraint를 재고지하지 않아 memory가 없으면 다음 단계 해결이 어려움
- long-horizon + partial observability 설정에서 memory를 belief-like state로 유지해야 함
Suggestions
#1 MemoryArena Benchmark
- [Env 1] Bundled Web Shopping
- 여러 상품을 순차적으로 구매하면서 compatibility constraint를 유지
- 예: 카메라 바디 -> 렌즈 -> 마운트
- feature-level compatibility map + negative constraint + user preference injection
- [Env 2] Group Travel Planning
- base traveler 이후 추가 participant가 join하는 방식
- JOIN/RELATION constraint가 누적되며 chain depth 최대 4
- [Env 3] Progressive Web Search
- browseComp-Plus 기반
- subquery가 session마다 조건을 누적, 이전 정보 재사용 필수
- 평균 trace 길이 약 122k tokens
- [Env 4] Sequential Formal Reasoning (Math, Physics)
- lemma -> lemma -> final theorem 구조
- 앞 단계 결과를 뒤 단계에서 재활용해야 하는 multi-stage reasoning
#2 Memory-Agent-Environment Loop
- multi-session 상호작용을 Retrieval -> Action -> Update 루프로 모델링
- persistent memory가 실제 task 성공의 필요조건이 되도록 environment 설계
Effects
- Experimental setup
- memory baseline 구분
- 0D memory: raw context 기반 (long-context buffer, BM25)
- 1D memory: flat abstraction (MemGPT, Mem0, MemoRAG)
- 2D memory: structured memory (GraphRAG 계열)
- backbone: GPT-5.1-mini 등
- metrics
- SR: Task Success Rate (완전 성공 비율)
- PS: Progress Score (subtask 진행률)
- sPS: Group Travel 전용 soft metric (constraint satisfaction 기반)
- memory baseline 구분
- Main results
- 대부분 환경에서 SR이 매우 낮고, 특히 Group Travel은 전 모델 SR 0에 수렴
- PS 기준 부분 성공은 존재하지만 global consistency 관점에서 실패
- external memory가 항상 이득인 것은 아니며, memory system과 agent policy 간 비정합 시 개선 효과 제한
- context가 매우 길어지는 환경([Env 3], [Env 4])에서는 noise filtering 관점의 memory가 상대적으로 유리
- Analysis
- 저자들은 MemoryArena를 POMDP testbed로 해석
- memory를 belief state approximation으로 볼 때, 현행 시스템은 state variable tracking과 sufficient statistics 유지 모두에 취약
Personal note. 우리 쪽 문제의식(다중 세션/의존적 task에서 memory의 역할)과 맞닿는 지점이 많아 co-current work로 넣기 좋은 페이퍼라고 느꼈습니다. 특히 마지막 POMDP framing처럼 memory를 “길게 기억한다”에서 “불완전 관측 상태에서 충분통계를 유지한다”로 바꿔 설명한 방식이 설득력 있게 보였습니다.