General Agentic Memory via Deep Research
Meta info.
- Authors: B.Y. Yan, Chaofan Li, Hongjin Qian, Shuqi Lu, Zheng Liu
- Paper: https://arxiv.org/pdf/2511.18423
- Affiliation: BAAI, HKPU, Peking Univ., Renmin Univ.
- Published: November 23, 2025
- Code: https://github.com/VectorSpaceLab/general-agentic-memory
TL; DR
๊ฒฝ๋ memorizer์ full-page store + deep research๋ก Just-In-Time memory ํ๋ ์์ํฌ ์ ์, ๊ธฐ์กด ์ฌ์ ์์ถ (static) ๋ฉ๋ชจ๋ฆฌ ๋๋น ๋ค์ํ long-term + multi-hop ์ฑ๋ฅ ํฅ์ ๋ฌ์ฑ

Background
- session history๋ฅผ ๊ธธ๊ฒ ์ถ์ ํ๋๋ผ๋ context window ํ๊ณ, ๋น์ฉ๋ฌธ์ , context rot๋ฑ์์ ๊ฐ๋ฑ
- AOT(Ahead-of-Time) memory: ๊ธฐ์กด ๋ฉ๋ชจ๋ฆฌ์์คํ
์ ์ ์ฒด ํ์คํ ๋ฆฌ๋ฅผ ์คํ๋ผ์ธ์์ ์์ถ > test-time์์ ์ด ์์ถ ๋ฉ๋ชจ๋ฆฌ๋ง ํ์ฉ
- A-mem, Mem0, MemoryOS, LightMem ๋ฑ
Problem States
์ ์ฒด ๋ด์ฉ์ ์ ์ฅํ๋, ์ค์ ๋ต๋ณ์์๋ retrieval + reasoning์ผ๋ก ์ต์ ์ ์ปจํ ์คํธ๋ฅผ ์ฆ์์ผ๋ก(just-in-time) ๊ตฌ์ฑํ ์ ์์๊น?
- AOT๋ ์ ๋ณด์์ค์ด ํฌ๋ค : test ์์ ์ ํ์ํ ์์ ์ ๋ณด๋ค์ด ์ด๋ฏธ ์์ฝ๊ณผ์ ์์ ์์ค
- ์ ์ ๊ตฌ์กฐ๋ผ ์์ธก ๋ถ๊ฐ๋ฅํ ์์ฒญ์ ๋์ ์ด๋ ค์: ๋์ ์ ๋ณด ์กฐํฉ ๋ฐ ํ์์ด ํ์ํ ๋ ๋์ ๋ถ๊ฐ
- heuristc ์์กด๋๊ฐ ๋๊ณ generalization ๋ถ์กฑ: chunk ํฌ๊ธฐ, summary ๋ฐฉ์, category ๋ฑ์ ๊ตฌ์กฐ๊ฐ ์ฐ๊ตฌ์ ์ค๊ณ์ ์์กด
Suggestions
General Agentic Memory (GAM)
- memorizer + researcher์ 2๊ฐ agent ๊ตฌ์ฑ
- memory system: (def) task์ history๋ฅผ ๋ฐ์ downstream ์ฑ๋ฅ์ ์ต๋๋ก ์ ์งํ๋ฉด์ ๊ฐ์ฅ ์งง์ context c๋ฅผ ๋ฐํํ๋ ์์คํ
memorizer: session๋ง๋ค page(s) ์์ฑ. ๊ฐ page์๋ header๋ผ๋ ์์ฝ(๊ฒ์ํ์ง ํฅ์๋ชฉ์ )์ด๋ session์ ๋ณธ๋ฌธ ์ ์ฒด๋ฅผ ๋ด๊ณ ํ์ด์ง๋ ์ต๋ 2048-token์ผ๋ก ๊ตฌ์ฑ. session ์ ์ฒด์ ๋ํด์๋ memo (์ด ์ญ์ ์์ฝ) ์์ฑresearcher: planning > searching + integration > reflection- planning: ์ด๋ค retriever(BGE-M3 dense, BM25, Page ID ๊ฒ์)๋ฅผ ์ด๋ค ๊ฒ์์ด(query)๋ก ๊ฒ์ํ ์ง ๊ณํ
- Page ID ๊ฒ์: ์ ์ ๋ฐฉ์์ผ๋ก, ์ง์ ์ ์ผ๋ก session id๋ฅผ memo์์ ์ธ๊ธํ๋ ๋ฐฉ์, ๊ทธ session์ retrieval์์ ํ์ฉ
- searching + integration: ๊ณํ๋ ๋๊ตฌ ํธ์ถํ์ฌ ์ป์ ํ์ด์ง๋ค๋ก IntegrateAgent๊ฐ ๊ฐ ํ์ด์ง์์ ์์ฒญ ๊ด๋ จ ์ ๋ณด๋ง ์ถ์ถ + ์์ฝ > ๋์ I(ํตํฉ๋ฉ๋ชจ๋ฆฌ) ๊ฐฑ์
- reflection: InfoAgent๊ฐ โ์ด์ ๋ต๋ณ ๊ฐ๋ฅํ๊ฐ?โ์ ๋ํด ํ๋จ. ๋ถ์กฑํ๋ค๋ฉด FollowUpRequestAgent๊ฐ ํ์ ์ฟผ๋ฆฌ ์ง๋ฌธ ์์ฑ > ๋ค์ planning๋ถํฐ (๋ฐ๋ณต ์๋ hyper parameter)
- planning: ์ด๋ค retriever(BGE-M3 dense, BM25, Page ID ๊ฒ์)๋ฅผ ์ด๋ค ๊ฒ์์ด(query)๋ก ๊ฒ์ํ ์ง ๊ณํ
-
- ๊ฐํํ์ต: memorizer์ researcher๋ฅผ policy๋ก ๋๊ณ downstream reward๋ฅผ ์ฐ๋ policy gradient update ์ค๊ณ (ํ์ ์ฐ๊ตฌ๋ก ์ธ๊ธ)
- memorizer: summary/page-store ๊ตฌ์ฑ๋ฐฉ์์ task-oriented๋ก ํ์ต
- researcher: planning & retrieval ์ ๋ต์ ๋ณด์๊ธฐ๋ฐ์ผ๋ก ์ต์ ํ
- ๊ฐํํ์ต: memorizer์ researcher๋ฅผ policy๋ก ๋๊ณ downstream reward๋ฅผ ์ฐ๋ policy gradient update ์ค๊ณ (ํ์ ์ฐ๊ตฌ๋ก ์ธ๊ธ)
Effects
- Experiment setup
- backbone: gpt-4o-mini(128k), Qwen2.5-14B(128k)
- retriever: BGE-M3, BM25, Page-ID
- baselines:
- Long-LLM(์๋ฌธ ์ ์ฒด ๋ฃ๊ธฐ), RAG
- A-Mem, Mem0, MemoryOS, LightMem
- Results
tab 1Main Results- LoCoMo(๋ํ ์ฅ๊ธฐ๊ธฐ์ต): GAM์ด ๋ชจ๋ baseline์ ๋ช
ํํ๊ฒ ์๋
- temporal: mem0 48.93 > GAM 59.45
- ODQA: mem0 28.64 > GAM 33.3
- HotpotQA: ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก baseline ์ฑ๋ฅ ํ๋ฝ ๋๋น GAM์ ํฐ ๊ฒฉ์ฐจ๋ก ์ฐ์
- RULER(synthetic long-context): multi-hop tracing์์ Long-LLM 60.6 ๋๋น GAM 93.2 ๋ฑ
- LoCoMo(๋ํ ์ฅ๊ธฐ๊ธฐ์ต): GAM์ด ๋ชจ๋ baseline์ ๋ช
ํํ๊ฒ ์๋
tab 2ย scaling ํจ๊ณผ- memorizer: 0.5B์์ 32B๋ก ํค์๋ ์ฑ๋ฅํฅ์ ์ ํ์ (์์๋ชจ๋ธ๋ก ์์ฝ์ ์ถฉ๋ถํ๋ค๊ณ ๋ถ์)
- researcher: 0.5B์์๋ ๋ถ๊ฐ, ์ต์ 14B์์ 32B๋ ๋์ด์ผ ์ฑ๋ฅ (์๋์ ์ผ๋ก ๊ณํ, ํ์๋ฑ์ ๋ ์ด๋ ค์ด ์์ ์ผ๋ก ๋ถ์)
fig 2ย test-time scaling- reflection depth ์ถ๊ฐ: 1> 5 ๋๋ฆด์๋ก ์ฆ๊ฐ (3~4์์ ์๋ ด)
- retrieved pages๋ ๋๋ฆด์๋ก ๋์ ์ฑ๋ฅ
- ablationย
tab 3ยtab 4- BM25 ๋จ๋ ์ด dense ๋จ๋ ๋ณด๋ค๋ ๋ซ๊ณ ๋ค ์กฐํฉํด์ผ ์ต๊ณ ์ฑ๋ฅ
- memorizer๋ researcher ๋ชจ๋ ์ ์ํ ๋ชจ๋์ด๊ณ
- header+full-page๊ฐ ์ต๊ณ ์ฑ๋ฅ (vs. summary-only, summary+snippets)
tab 5ย ํจ์จ์ฑ- online์ด๋ฉด ๋น์ฐํ AOT๋ณด๋ค GAM์ด ๋ ๋น์ฉ์ด ํฌ์ง๋ง ์ ์ฒด offline + online๋น๊ต์ ์ ์๋ฐฉ์์ด ์ฐ์, ์ฑ๋ฅ ์ญ์ ์ฐ์ํจ ํ์ธ
Personal note. ์ ์ ๋ด์ฉ์ด ๋๋ถ๋ฌ์ง ๊ฒ ๊ฐ์ง ์์ง๋ง, ์ธํธ๋ก๊ฐ ํฅ๋ฏธ๋ก์์ ๋ดค์ต๋๋ค. ์๋์ ์ผ๋ก researcher๊ฐ ๋ฌด๊ฑฐ์๋ณด์ด๊ณ , ๋์ ์ผ๋ก ๊ทธ๋๊ทธ๋ context ๊ฐ์ ธ๋ค ์ฐ๊ฒ ๋ค๋ ํ๋ฆ๋ ์ฐธ์ ํ ์์ด๋์ด๋ ์๋ ๊ฒ ๊ฐ์์.