MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents

July 11, 2025 3 minute read

Meta info.

Authors: Haoran Tan, Zeyu Zhang, Chen Ma, Xu Chen, Quanyu Dai, Zhenhua Dong
Paper: https://arxiv.org/pdf/2506.21605
Affiliation: Huawei, Renmin Univ.
Published: June 20, 2025

TL; DR

multi-scenario (participation & observation) + multi-level (factual & reflective) 메모리 유형 통합, multi-metric evaluation를 사용하는 LLM-based agent의 메모리를 평가하는 벤치마크인 MemBench 소개

Background

LLM-based memory는 annotation 혹은 task-based metrics으로 평가되고, participation setting에서 factual memory 기반으로 하여 observation 혹은 reflective memory에 대한 시나리오 고려 못함. (accuracy 이상으로 평가되지 못해옴)

LongMemEval, LoCoMo 등 최근 연구는 여전히 factual memory에 한정, reflective 한 추론이나 agent의 수동성을 시뮬레이션하지 못함.

Problem States

벤치마크는 아래 세 가지를 모두 포함해야 한다

active participation뿐만 아니라 passive observation을 포괄하고,
factual할 뿐만 아니라 reflective memory를 포함하면서
accuracy, recall, efficiency, memory capacity 등을 평가

Suggestions

데이터셋 구축 전략 #1 user relation graph: user 자신 + 관련자/장소/사건/아이템 등 entity
- 대화 컨텍스트에 필요한 사실 정보 및 성찰 정보 생성 기반 구축
- entitiy 별 property 별도
- Reflective Memory를 위해 사용자 취향 반영
  - 추천 시스템 데이터셋(MovieLens, Food, Goodreads 등의 실제 공개 추천 데이터) 활용
  - 좋아요 또는 평점 높은 항목들 > LLM이 상위 선호도(high-level preference) 추출
  - 상위 취향 ↔️ 하위 사실 속성 간 1:N 사전(dictionary) 구성
  - 예: ‘Salted Maple Ice Cream’, ‘Pecan Praline’ 등을 좋아함 > 취향: ‘Sweet and Salty’ > “Sweet” : [Apple Pie, Pecan Pie, Honey…]
데이터셋 구축 전략 #2 Dialogue Session + QA pair
- Observation: Agent는 사용자 메시지를 듣기만 하고 반응하지 않음
  - 메시지는 단순 진술문으로 생성 (LLM 재작성 사용)
  - input: “I’ll go to the Build Start event next week”>rewrite: “My Build Start 2024 is happening next week on Monday at 7:00 PM.”
- Participation: Self-dialogue 방식으로 사용자와 에이전트 간 다중 턴 대화 생성
  - Assistant는 정답을 모르고 (정보성격 없는)반응만 함 (시나리오 기반 prompt로 생성)
  - key evidence 문장을 중간 삽입: 다양한 reasoning 유형을 반영한 대화 설계 (QA Pair에서 활용)
  - 시간 간격 기반 세션 분할:
    - 동일 세션 내에서는 짧은 시간 간격 (1분 단위)
    - 세션 간에는 긴 시간 간격 (하루 간격 등) 부여
- QA Pair: 단일/다중 hop, 비교, 집계, 정서 요약 등
  - 미리 삽입된 evidence가 있는 Dialogue로부터 도출 가능하도록 설계
  - MCQ로 변환하여 정확도 평가 용이성 확대
평가용 sub datset
- Sub-dataset 1(일반 테스트용): 평균 10k tokens/session
- Sub-dataset 2(장기 메모리 테스트용): 평균 100k tokens/session
- 노이즈 삽입: 평가 시 일부 세션에 무관한 정보(뉴스 대화 세션) 삽입해 용량 한계(메모리 리텐션/유지력) 테스트

Effects

평가 방법: 에이전트는 시간 순서에 따라 매 turn 대화를 받으며 학습함
- 각 테스트에서 Q에 대해, 과거 t−1 라운드까지의 내용은 memory module을 통해서만 접근 가능, 현재 t 라운드에는 새로운 정보 주어짐
- 즉, Memory Module이 똑바로 작동되면 예전 정보를 잘 꺼내쓰지만, 실패하면 이전 정보를 잊어버린 것처럼 응답할 것으로 예상
  - Q에 대해 맞는 답을 하면 기억을 유지했다고 판단, 그렇지 않은 경우 기억 유지 실패로 간주
baseline
- FullMemory: 모든 대화 기억, 빠르지만 윈도우 제한
- RecentMemory: 최근 정보만 기억, 가장 간단하지만 작은 window size
- RetrievalMemory: embedding 검색 기반 = retrieval 성능에 좌우
- GenerativeAgent: 시뮬레이션 기반 추론 기억, 대화형 기억 복원
- MemoryBank: 외부 메모리 사용하여 LC 사용하나 write 느림
- MemGPT: 운영체제형 메모리 컨트롤, read가 느림
- SCMemory: self-controlled memory, 불안정하다고 보고됨
Results
- Factual Memory Tab3
  - RetrievalMemory가 항상 최고 성능, 특히 Observation 시나리오에서 가장 안정적
  - FullMemory, RecentMemory는 token 수가 많아지면 window size 밖으로 밀려서 급감
  - MemGPT는 정확도는 낮지만 긴 context 대응은 평균 이상
- Reflective Memory Tab4 대화 중에서 직접 표현되지 않은 고차원적 맥락 (선호나 기분 등)를 기억할 수 있는가?
  - 취향 기억은 대부분 잘 수행하지만, 감정 기억은 모든 메커니즘이 어려워함
  - GenerativeAgent는 reflective 기억 처리에 강점 (시뮬레이션 기반)
  - MemoryBank는 Observation 시나리오에 한해 강력하지만 속도 느림
- Memory Capacity Fig5: Sub-dataset 2 의 Observation 시나리오 사용: 항상 Evidence가 앞에, 질문이 뒤에 등장
  - Retrieval 기반은 정확도 점진적 감소
  - SCMemory나 MemGPT 같은 구조화된 경우는 일정 토큰 수 이후 급격히 성능 하락 > 메모리 설계의 스케일 대응력에 따라 성능 지속 여부가 갈린 것으로 해석 가능
- Backbone LLM 비교 Tab5 : Qwen2.5-7B-Instruct, GPT-4o-mini, Meta-LLaMA-3.1-8B, glm-4-9b-chat
  - GPT-4o-mini는 reflective memory 특히 강함
  - Meta-LLaMA는 factual에는 약하지만 reflective엔 꽤 괜찮은 성능
  - glm은 overall 낮은 성능, 특히 factual에 취약

Personal note. 평가 방식을 단순화할 수 있도록 설계한 부분이 takeaway 같습니다. 평가를 agent response로 하는 것의 어려움에 대해서는 익히 느껴온 바 있고, 이를 우회하기 위해 간접 질의(QA pair)를 함께 구축하는 것이 일반적인 추세인 것을 재확인하는 기회이기도 했습니다. 논문 공개는 보름이 채 안된 것에 비해 무려 반년 전 마지막 커밋이 찍힌 레포지토리가 공개되어있기는 한데 리드미 포함 설명이 아직 없어서 차차 데이터는 살펴볼 여지가 있어보입니다. 아울러 정보 없는 반응 = reaction을 고려한 것도 일상대화스럼직 하다고 느낍니다만, 구축 방식 자체는 구식으로 보여서 개선의 여지가 있을지 고민해보겠습니다.