SimpleMem: Efficient Lifelong Memory for LLM Agents
- Authors: Jiaqi Liu, Yaofeng Su, Peng Xia, Siwei Han, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao
- Paper: https://arxiv.org/pdf/2601.02553
- Code: https://github.com/aiming-lab/SimpleMem
- Affiliation: UNC-Chapel Hill, UC Berkeley, UCSC
- Published: January 5, 2026
TL; DR
LLM Agent์ LTM์ semantic lossless compression์ผ๋ก ์ฌ์ ์ํ๊ณ , write-time ๊ตฌ์กฐํยทonline synthesisยทintent-aware retrieval๋ก ์ฑ๋ฅ๊ณผ ํ ํฐ ํจ์จ(์ต๋ 30๋ฐฐ)์ ๊ฐ์ ํ ๋ฉ๋ชจ๋ฆฌ ํ๋ ์์ํฌ ์ ์
Review Video

Background
- LLM agent memory๋ ์ ์ฅ๋ฌธ์ ์ค์ฌ์ผ๋ก ๋
ผ์: memory๋ฅผ passive storage๋ expensive reasoning ๋์์ผ๋ก๋ง ๋ณด๋ ๊ด์ ์ ํ๊ณ
- Full-context extension ๊ณ์ด: ๋ํ ์ ์ฒด ๋์ (MemGPT, LoCoMo, ์ผ๋ถ LC-agent)
- chitchat, acknowledgement, ๋ฐ๋ณต ํ์ธ ๊ฐ์ low-entropy content ๊ด๋ฆฌ ๋นํจ์จ, lost-in-the-middle
- Iterative reasoning / filtering ๊ณ์ด: inference๋ก memory ์ ์ (A-Mem, Mem0)
- latency ๋ฐ token cost ํญ์ฆ, temporal/referential ambiguity ์ฌ์
- Full-context extension ๊ณ์ด: ๋ํ ์ ์ฒด ๋์ (MemGPT, LoCoMo, ์ผ๋ถ LC-agent)
- information density ๋ฌธ์ ๋ ์๋์ ์ผ๋ก ๋ ๋ค๋ค์ง
Problem States
- input length ์ ํ๋ ์ํ์์ LLM์ด long-horizon interaction์ ์ ๊ธฐ์ตํ๋ ค๋ฉด memory๋ ์ด๋ป๊ฒ ์ค๊ณ๋ผ์ผ ํ๋๊ฐ?
- low-utility dialogue๋ฅผ ์์ ์ ์ฅํ์ง ์์ผ๋ ค๋ฉด?
- pronoun / relative time ๋ฌธ์ ๋ฅผ session ๊ฐ์ ๊น๋ํ ์ ๋ฆฌํ๋ ค๋ฉด?
- fragmented memory๋ฅผ ๋ง๋ค์ง ์์ผ๋ ค๋ฉด?
- retrieval์์ fixed top-k๊ฐ ์๋๋ผ query-dependent scope๋ฅผ ์ฐ๋ ค๋ฉด?
Suggestions
Semantic Lossless Compression
- Core idea: ๋ํ ๋ฉ๋ชจ๋ฆฌ๋ ์์ฝํ ๋์์ด ์๋๋ผ semantic lossless compression ๋์
- ์ ๋ณด๋ ์ค์ด๋, downsteram reasoning์ ํ์ํ ์๋ฏธ๋ ์์ง ์๋๋ก
- ์ด๊ฑธ retrieval time์ด ์๋๋ผ write time์ ํ์
- Methods: SimpleMem (Fig. 2)
- Stage 1. Semantic Structured Compression: ์ธ๋ชจ ์๋ ๋ํ๋ง context-independent memory unit์ผ๋ก ๋ณ๊ฒฝ
- semantic density gating: sliding window๋ก ๋ํ split, LLM์ด ์ ์ตํ ์ ๋ณด ์ฌ๋ถ ํ๋ณ
- threshold๋ classifier ์์ด generation ์์ฒด๋ฅผ gating์ผ๋ก ํ์ฉ
- de-linearization transformation: ๋จ์ผ LLM pass์์ ๋์์ coreference resolution + temporal normalization + fact atomization ์ํ
- coreference resolution: her kids โ Sarahโs kids
- temporal normalization: last week โ 2026-01-26
- fact atomization: ์ต์๋จ์ factual statement๋ก ๋ถํด
- ์๋: memory unit์ ๊ฐ์ ์ด์ context ์์ด ํด์ ๊ฐ๋ฅ โ retrieval ๋๋ ํฌ๊ฒ ํ๋ฝ
- semantic density gating: sliding window๋ก ๋ํ split, LLM์ด ์ ์ตํ ์ ๋ณด ์ฌ๋ถ ํ๋ณ
- Stage 2. Online Semantic Synthesis: write-time์ synthesis
- memory๋ฅผ atomicํ๊ฒ๋ง ์์ผ๋ฉด fragmentation ๋ฐ์ โ retrieval ์ ์ฌ์กฐํฉ ํ์
- ๊ฐ์ session ๋ด์์ ์๋ฏธ์ ์ผ๋ก ์ฐ๊ฒฐ๋ fact๋ค์ ์ฆ์ ํ๋๋ก ํฉ์นจ
- e.g. user wants coffee + user prefers oat milk + user likes it hot โ user prefers hot coffee with oat milk
- ์๋: online, intra-session, proactive ์ฒ๋ฆฌ (not retrieval-time)
- Stage 3. Intent-Aware Retrieval Planning: retrieval์ ๊ฒ์์ด ์๋ planning์ผ๋ก ๊ฐ์ฃผ
- ๊ธฐ์กด retrieval์ query ๋์ด๋์ ๋ฌด๊ดํ๊ฒ ํญ์ top-k๋ฅผ ๊ฐ์ ธ์ด
- query complexity์ ๋ฐ๋ผ ํ์ํ retrieval depth ์ ์
- semantic/lexical/symbolic query ๋ถ๋ฆฌ โ Semantic index (dense) + Lexical index (BM25) + Symbolic index (time, entity) ๋ณ๋ ฌ ์กฐํ โ set union + deduplication
- Stage 1. Semantic Structured Compression: ์ธ๋ชจ ์๋ ๋ํ๋ง context-independent memory unit์ผ๋ก ๋ณ๊ฒฝ
Effects
- Experiment setup
- Benchmarks
- LoCoMo: long-term conversational reasoning ํ๊ฐ
- 200-400 turns, topic shift/temporal jump/interleaved topics ๋ค์
- QA ์ ํ: multi-hop reasoning, temporal reasoning, open-domain, single-hop
- Metrics: F1, BLEU-1, Adversarial Success Rate, Token Cost
- LongMemEval-S: extreme long-context memory stress test
- ๋น์ ์์ ์ผ๋ก ๊ธด interaction history โ ์ ํํ answer localization ์๊ตฌ
- ํ๊ฐ: LAAJ accuracy (gpt-4.1-mini๊ฐ CORRECT/WRONG binary ๊ตฌ๋ถ)
- LoCoMo: long-term conversational reasoning ํ๊ฐ
- Baselines: Full-context (LoCoMo), ReadAgent, MemoryBank, MemGPT, A-Mem, LightMem, Mem0
- Backbones: GPT-4.1-mini, GPT-4o, Qwen-Plus, Qwen2.5 (1.5B, 3B), Qwen3 (1.7B, 8B)
- Implementation details
- sliding window size: 20 turns
- semantic embeddings: Qwen3-embedding-0.6b (1024-d)
- indexing: semantic = LanceDB, lexical = BM25, symbolic = SQL-based metadata (time, entity)
- retrieval depth: planner ํ๋จ์ ๋ฐ๋ผ adaptive [3, 20]
- Benchmarks
- Results
- RQ1: SimpleMem์ด ๊ธฐ์กด memory system๋ณด๋ค ๋์๊ฐ? โ YES
- LoCoMo: ๋ชจ๋ backbone์์ SimpleMem ์ต๊ณ ํ๊ท F1
- ํนํ temporal reasoning์์ ํฐ ์ฐจ์ด
- single-hop์์๋ ์ฑ๋ฅ ์ฐ์ = abstraction์ด detail์ ์์ง ์์์์ ์์ฌ
- LongMemEval-S: ํน์ ์ ํ์ ์น์ฐ์น์ง ์๊ณ ์์ ์ ํจ๊ณผ
- multi-session category์์ ๊ฐ์ฅ ํฐ ๊ฒฉ์ฐจ
- Full-context๋ ์คํจ, LightMem์ ํน์ sub-task์์๋ง ํจ๊ณผ์
- LoCoMo: ๋ชจ๋ backbone์์ SimpleMem ์ต๊ณ ํ๊ท F1
- RQ2: ์ฑ๋ฅโtoken cost trade-off ๊ฐ์ ? โ YES
- ํ ํฐ ํจ์จ: Full-context/MemGPT ~16,900 tokens, Mem0 ~980 tokens, SimpleMem ~530 tokens
- ๋ชจ๋ธ ํฌ๊ธฐ ๊ด๋ จ: Qwen2.5-1.5B + SimpleMem > Qwen3-1.7B + Mem0
- memory architecture๊ฐ model scale์ ๋ณด์ํ๋ค๊ณ ์ฃผ์ฅ
- RQ3: ablation
- stage 1 ์ ๊ฑฐ โ temporal reasoning ์คํจ
- stage 2 ์ ๊ฑฐ โ multi-hop reasoning ์คํจ
- stage 3 ์ ๊ฑฐ โ open-domain/single-hop reasoning ์คํจ
- RQ1: SimpleMem์ด ๊ธฐ์กด memory system๋ณด๋ค ๋์๊ฐ? โ YES
Personal note. memory๋ฅผ ์ ๋๋ก ์ฐ๊ตฌํด๋ณธ๋ค๋ฉด, ๊ทธ๋ฌ๋๊น ์๋ setup๋ค์ ๋๊ณ ๋ฐฉ๋ฒ๋ก ์ค์ฌ์ผ๋ก ํํดํ๋ค๋ฉด ์ด๋ฐ ๋๋์ ํ์ดํผ๊ฐ ๋์ฌ ๊ฒ ๊ฐ์๋ฐ, ๋ด๋ ๋ด๋ ๋ญ๊ฐ ์ฐธ์ ํ์ง๋ ์ ๋ชจ๋ฅด๊ฒ ๋๋ฐ ๋ฐํด ๊ณ์ ๋์ค๊ณ ์ฃผ๋ชฉ๋ฐ๋ ๊ฒ ๊ฐ์์ ๊ณ ๋ฏผ์ค๋ฝ์ต๋๋ค. ๋ฒ์ด๋์ ์๊ฐํด๋ณด๋ฉด ์ง๋ 1์์ ์ด ํ์ดํผ ๋๋์ ๋ต์ตํ ๊ฒ๋ ๊ฐ๊ณ ์.
์ด ํ์ดํผ์์ ๋นํ์ ์ผ๋ก ์๊ฐํด๋ณผ ๋ถ๋ถ์ ๊ฒฐ๊ตญ ๊ฒ์ ์ฑ๋ฅ์ ํฌ๊ฒ ์์กด๋๋ ๊ตฌ์กฐ์ธ ์ , ์ฆ ๋ฉ๋ชจ๋ฆฌ ๊ฒ์์ ์ผ๋ง๋ ์ํ ๋๋ฅผ ๊ณ ๋ฏผํ ํ์ ์ด ์ญ๋ ฅํ๊ณ , ์ด ์ ๊ทผ์ด ๋์๋ค๋ ๊ฒ์ด ์๋๋ผ write-time์ด๋ผ๊ณ ๊ฑฐ์ฐฝํ๊ฒ ์๊ธฐํ๊ธด ํ์ง๋ง ๊ฒฐ๊ตญ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ ์ฌํ ์ ์ ์์๊ฒ ์๊ณ ์ฐพ์ ๋ ์ ์คํ๊ฒ (semantic + lexical + symbolic 3์ค ๊ตฌ์กฐ) ์ฐพ๊ฒ ๋ค๋ ํ๋ฆ์ด ์ง๊ทนํ ํ๊ฐํ๊ณ ์ ํ๋ ๋ฒค์น๋งํฌ์ 4๊ฐ์ง ์ง์ ์ ํ์ ๋งค๋ชฐ๋์ด ์๋ค๋ ๋๋์ ๋ฐ์์ต๋๋ค. ์ฆ ์ฃผ์ฅ์ด ๊ฑฐ์ฐฝํ ๋ฏ ๋ณด์ด์ง๋ง, semantic lossless compression์ ์ฌ์ค์ semantic task-lossless์ ๊ฐ๊น๊ณ ์. task scope ์์ฒด์ ๋ฌธ์ ์ธ๋ฐ ์ด๋ฅผ ๋ฌธ์ ์ผ๊ณ ์ ํ๋ฉด ๋ค์ ๋ฒค์น๋งํฌ๋ถํฐ ๊ตฌ์ถํด๋์ผ๋๋ค๋ ํ๋ฆ์ ์ง๋ฉดํ๊ฒ ๋ฉ๋๋ค.
์ง๋ ์ฐ๊ตฌ ํ๋ฆ๊ณผ์ ๋งฅ์ ์ก์๋ณด์๋ฉด ์๋ง ์ด๋ฐ ์์ผ๋ก์ ์์ถ์ด ์ฌ์ ํ user preference์ ๋ํด์๋ ๋งฅ์ ๋ชป์ถ ๊ฒ ๊ฐ๋ค๋ ์ง๊ฐ์ ๋ฐ์์ต๋๋ค. (stage 1์์ ์ฌ์ ํ ์์ค์ํ๋ค๊ณ ํ๋จํ ์ ๋ณด๋ค์ด preferenceํ ๋ ์ ์๊ธฐ ๋๋ฌธ์ == typical summarization ์คํ์ผ memory์ ๋ฌธ์ ) ์ ์ตํ ๋ท๋ฐ์นจ์ด๋ผ๊ณ ํ๋ค๋ฉด ์๋ฌดํผ memory๊ฐ ์ ์ ๋ฆฌ๋์ด ์์ด์ผ agent๊ฐ ๊ฐ๋ค๊ฐ reasoningํ ๋ ์ด๋ค ์ ๋์ ํ๋ฆ..
์ ๋ฐ์ ์ผ๋ก ์ ์๋ค์ด ์ฃผ์ํ๊ฒ ์ฃผ์ฅํ๋ ์๋์ ์ธ ํ ํฐ ํจ์จ์ฑ์ผ๋ก ๋ถ๋ช ์๋๊ฒ ์์ด๋ณด์ด๋๋ฐ ํ๊นํ ๋ฒค์น๋งํฌ์์๋ ๊ทธ loss๊ฐ ์์กํ๋ ๊ฑฐ๋ก ๋ณด์ฌ์ ๋๊ฐ๋ฆฌ๊ณ ์์ ํ ๋๋๐ญ