2 minute read

Meta info.

TL; DR

multi-session + interdependent subtask 환경의 Memory-Agent-Environment loop를 평가하는 benchmark를 제안하고, 기존 memory system이 실제 agentic setting에서 매우 취약함을 실증

MemoryArena overview

Figure 1 Figure 2 Figure 3 Figure 4 Figure 5 Figure 6 Figure 7 Figure 8 Figure 9 Figure 10

Slide 8

Background

  • 기존 memory benchmark (LoCoMo, LongMemEval, MemoryBench)는 주로 post-hoc QA 기반 recall 평가 중심
    • static conversational memory 평가에는 유용하지만, action-driven setting에는 한계
    • environment가 변화하는 상황에서 기억을 decision에 실제로 사용하는지 평가하기 어려움
  • 기존 agentic benchmark (WebArena, SWE-branch 등)는 interactive execution/tool use는 다루지만 single-session 중심
    • persistent memory 필요성이 낮고 session 간 정보 재사용 압박이 약함

Problem States

memory는 단순 recall이 아니라, multi-session task에서 latent constraint를 유지하면서 action selection에 직접 기여해야 한다.

  • subtask 간 dependency로 인해 이전 선택이 이후 선택공간을 제약
  • environment가 이전 constraint를 재고지하지 않아 memory가 없으면 다음 단계 해결이 어려움
  • long-horizon + partial observability 설정에서 memory를 belief-like state로 유지해야 함

Suggestions

#1 MemoryArena Benchmark

  • [Env 1] Bundled Web Shopping
    • 여러 상품을 순차적으로 구매하면서 compatibility constraint를 유지
    • 예: 카메라 바디 -> 렌즈 -> 마운트
    • feature-level compatibility map + negative constraint + user preference injection
  • [Env 2] Group Travel Planning
    • base traveler 이후 추가 participant가 join하는 방식
    • JOIN/RELATION constraint가 누적되며 chain depth 최대 4
  • [Env 3] Progressive Web Search
    • browseComp-Plus 기반
    • subquery가 session마다 조건을 누적, 이전 정보 재사용 필수
    • 평균 trace 길이 약 122k tokens
  • [Env 4] Sequential Formal Reasoning (Math, Physics)
    • lemma -> lemma -> final theorem 구조
    • 앞 단계 결과를 뒤 단계에서 재활용해야 하는 multi-stage reasoning

#2 Memory-Agent-Environment Loop

  • multi-session 상호작용을 Retrieval -> Action -> Update 루프로 모델링
  • persistent memory가 실제 task 성공의 필요조건이 되도록 environment 설계

Effects

  • Experimental setup
    • memory baseline 구분
      • 0D memory: raw context 기반 (long-context buffer, BM25)
      • 1D memory: flat abstraction (MemGPT, Mem0, MemoRAG)
      • 2D memory: structured memory (GraphRAG 계열)
    • backbone: GPT-5.1-mini 등
    • metrics
      • SR: Task Success Rate (완전 성공 비율)
      • PS: Progress Score (subtask 진행률)
      • sPS: Group Travel 전용 soft metric (constraint satisfaction 기반)
  • Main results
    • 대부분 환경에서 SR이 매우 낮고, 특히 Group Travel은 전 모델 SR 0에 수렴
    • PS 기준 부분 성공은 존재하지만 global consistency 관점에서 실패
    • external memory가 항상 이득인 것은 아니며, memory system과 agent policy 간 비정합 시 개선 효과 제한
    • context가 매우 길어지는 환경([Env 3], [Env 4])에서는 noise filtering 관점의 memory가 상대적으로 유리
  • Analysis
    • 저자들은 MemoryArena를 POMDP testbed로 해석
    • memory를 belief state approximation으로 볼 때, 현행 시스템은 state variable tracking과 sufficient statistics 유지 모두에 취약

Personal note. 우리 쪽 문제의식(다중 세션/의존적 task에서 memory의 역할)과 맞닿는 지점이 많아 co-current work로 넣기 좋은 페이퍼라고 느꼈습니다. 특히 마지막 POMDP framing처럼 memory를 “길게 기억한다”에서 “불완전 관측 상태에서 충분통계를 유지한다”로 바꿔 설명한 방식이 설득력 있게 보였습니다.