SimpleMem: Efficient Lifelong Memory for LLM Agents

February 2, 2026 3 minute read

Meta info.

Authors: Jiaqi Liu, Yaofeng Su, Peng Xia, Siwei Han, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao
Paper: https://arxiv.org/pdf/2601.02553
Code: https://github.com/aiming-lab/SimpleMem
Affiliation: UNC-Chapel Hill, UC Berkeley, UCSC
Published: January 5, 2026

TL; DR

LLM Agent의 LTM을 semantic lossless compression으로 재정의하고, write-time 구조화·online synthesis·intent-aware retrieval로 성능과 토큰 효율(최대 30배)을 개선한 메모리 프레임워크 제안

Review Video

Table 1-2 Table 3 Table 4 Table 5 / Figure 3

Background

LLM agent memory는 저장문제 중심으로 논의: memory를 passive storage나 expensive reasoning 대상으로만 보는 관점의 한계
- Full-context extension 계열: 대화 전체 누적 (MemGPT, LoCoMo, 일부 LC-agent)
  - chitchat, acknowledgement, 반복 확인 같은 low-entropy content 관리 비효율, lost-in-the-middle
- Iterative reasoning / filtering 계열: inference로 memory 정제 (A-Mem, Mem0)
  - latency 및 token cost 폭증, temporal/referential ambiguity 여전
information density 문제는 상대적으로 덜 다뤄짐

Problem States

input length 제한된 상태에서 LLM이 long-horizon interaction을 잘 기억하려면 memory는 어떻게 설계돼야 하는가?
- low-utility dialogue를 아예 저장하지 않으려면?
- pronoun / relative time 문제를 session 간에 깔끔히 정리하려면?
- fragmented memory를 만들지 않으려면?
- retrieval에서 fixed top-k가 아니라 query-dependent scope를 쓰려면?

Suggestions

Semantic Lossless Compression

Core idea: 대화 메모리는 요약할 대상이 아니라 semantic lossless compression 대상
- 정보는 줄이되, downsteram reasoning에 필요한 의미는 잃지 않도록
- 이걸 retrieval time이 아니라 write time에 하자
Methods: SimpleMem (Fig. 2)
- Stage 1. Semantic Structured Compression: 쓸모 있는 대화만 context-independent memory unit으로 변경
  - semantic density gating: sliding window로 대화 split, LLM이 유익한 정보 여부 판별
    - threshold나 classifier 없이 generation 자체를 gating으로 활용
  - de-linearization transformation: 단일 LLM pass에서 동시에 coreference resolution + temporal normalization + fact atomization 수행
    - coreference resolution: her kids → Sarah’s kids
    - temporal normalization: last week → 2026-01-26
    - fact atomization: 최소단위 factual statement로 분해
  - 의도: memory unit은 각자 이전 context 없이 해석 가능 → retrieval 난도 크게 하락
- Stage 2. Online Semantic Synthesis: write-time에 synthesis
  - memory를 atomic하게만 쌓으면 fragmentation 발생 → retrieval 시 재조합 필요
  - 같은 session 내에서 의미적으로 연결된 fact들을 즉시 하나로 합침
    - e.g. user wants coffee + user prefers oat milk + user likes it hot → user prefers hot coffee with oat milk
  - 의도: online, intra-session, proactive 처리 (not retrieval-time)
- Stage 3. Intent-Aware Retrieval Planning: retrieval을 검색이 아닌 planning으로 간주
  - 기존 retrieval은 query 난이도와 무관하게 항상 top-k를 가져옴
  - query complexity에 따라 필요한 retrieval depth 정의
  - semantic/lexical/symbolic query 분리 → Semantic index (dense) + Lexical index (BM25) + Symbolic index (time, entity) 병렬 조회 → set union + deduplication

Effects

Experiment setup
- Benchmarks
  - LoCoMo: long-term conversational reasoning 평가
    - 200-400 turns, topic shift/temporal jump/interleaved topics 다수
    - QA 유형: multi-hop reasoning, temporal reasoning, open-domain, single-hop
    - Metrics: F1, BLEU-1, Adversarial Success Rate, Token Cost
  - LongMemEval-S: extreme long-context memory stress test
    - 비정상적으로 긴 interaction history → 정확한 answer localization 요구
    - 평가: LAAJ accuracy (gpt-4.1-mini가 CORRECT/WRONG binary 구분)
- Baselines: Full-context (LoCoMo), ReadAgent, MemoryBank, MemGPT, A-Mem, LightMem, Mem0
- Backbones: GPT-4.1-mini, GPT-4o, Qwen-Plus, Qwen2.5 (1.5B, 3B), Qwen3 (1.7B, 8B)
- Implementation details
  - sliding window size: 20 turns
  - semantic embeddings: Qwen3-embedding-0.6b (1024-d)
  - indexing: semantic = LanceDB, lexical = BM25, symbolic = SQL-based metadata (time, entity)
  - retrieval depth: planner 판단에 따라 adaptive [3, 20]
Results
- RQ1: SimpleMem이 기존 memory system보다 나은가? → YES
  - LoCoMo: 모든 backbone에서 SimpleMem 최고 평균 F1
    - 특히 temporal reasoning에서 큰 차이
    - single-hop에서도 성능 우수 = abstraction이 detail을 잃지 않았음을 시사
  - LongMemEval-S: 특정 유형에 치우치지 않고 안정적 효과
    - multi-session category에서 가장 큰 격차
    - Full-context는 실패, LightMem은 특정 sub-task에서만 효과적
- RQ2: 성능–token cost trade-off 개선? → YES
  - 토큰 효율: Full-context/MemGPT ~16,900 tokens, Mem0 ~980 tokens, SimpleMem ~530 tokens
  - 모델 크기 관련: Qwen2.5-1.5B + SimpleMem > Qwen3-1.7B + Mem0
    - memory architecture가 model scale을 보완한다고 주장
- RQ3: ablation
  - stage 1 제거 → temporal reasoning 실패
  - stage 2 제거 → multi-hop reasoning 실패
  - stage 3 제거 → open-domain/single-hop reasoning 실패

Personal note. memory를 제대로 연구해본다면, 그러니까 있는 setup들을 놓고 방법론 중심으로 태클한다면 이런 느낌의 페이퍼가 나올 것 같은데, 봐도 봐도 뭐가 참신한지도 잘 모르겠는데 반해 계속 나오고 주목받는 것 같아서 고민스럽습니다. 벗어나서 생각해보면 지난 1월에 쓴 페이퍼 느낌을 답습할 것도 같고요.

이 페이퍼에서 비판적으로 생각해볼 부분은 결국 검색 성능에 크게 의존되는 구조인 점, 즉 메모리 검색을 얼마나 잘할래를 고민한 흔적이 역력하고, 이 접근이 나쁘다는 것이 아니라 write-time이라고 거창하게 얘기하긴 했지만 결국 메모리를 적재할 적에 예쁘게 쌓고 찾을 때 신중하게 (semantic + lexical + symbolic 3중 구조) 찾겠다는 흐름이 지극히 평가하고자 하는 벤치마크의 4가지 질의 유형에 매몰되어 있다는 느낌을 받았습니다. 즉 주장이 거창한 듯 보이지만, semantic lossless compression은 사실상 semantic task-lossless에 가깝고요. task scope 자체의 문제인데 이를 문제삼고자 하면 다시 벤치마크부터 구축해놔야된다는 흐름에 직면하게 됩니다.

지난 연구 흐름과의 맥을 잡아보자면 아마 이런 식으로의 압축이 여전히 user preference에 대해서는 맥을 못출 것 같다는 직감은 받았습니다. (stage 1에서 여전히 안중요하다고 판단한 정보들이 preference화 될 수 있기 때문에 == typical summarization 스타일 memory의 문제) 유익한 뒷받침이라고 한다면 아무튼 memory가 잘 정리되어 있어야 agent가 갖다가 reasoning할 때 쓴다 정도의 흐름..

전반적으로 저자들이 주요하게 주장하는 압도적인 토큰 효율성으로 분명 잃는게 있어보이는데 타깃한 벤치마크에서는 그 loss가 안잡히는 거로 보여서 눈가리고 아웅한 느낌💭