General Agentic Memory via Deep Research

November 27, 2025 2 minute read

Meta info.

TL; DR

경량 memorizer와 full-page store + deep research로 Just-In-Time memory 프레임워크 제안, 기존 사전압축 (static) 메모리 대비 다양한 long-term + multi-hop 성능 향상 달성

session history를 길게 축적하더라도 context window 한계, 비용문제, context rot등에서 갈등
AOT(Ahead-of-Time) memory: 기존 메모리시스템은 전체 히스토리를 오프라인에서 압축 > test-time에서 이 압축 메모리만 활용
- A-mem, Mem0, MemoryOS, LightMem 등

AOT는 정보손실이 크다 : test 시점에 필요한 작은 정보들이 이미 요약과정에서 소실
정적 구조라 예측 불가능한 요청에 대응 어려움: 동적 정보 조합 및 탐색이 필요할 때 대응 불가
heuristc 의존도가 높고 generalization 부족: chunk 크기, summary 방식, category 등의 구조가 연구자 설계에 의존

memorizer + researcher의 2개 agent 구성
memory system: (def) task와 history를 받아 downstream 성능은 최대로 유지하면서 가장 짧은 context c를 반환하는 시스템
memorizer: session마다 page(s) 생성. 각 page에는 header라는 요약(검색품질 향상목적)이랑 session의 본문 전체를 담고 페이지는 최대 2048-token으로 구성. session 전체에 대해서는 memo (이 역시 요약) 생성
researcher: planning > searching + integration > reflection
- planning: 어떤 retriever(BGE-M3 dense, BM25, Page ID 검색)를 어떤 검색어(query)로 검색할지 계획
  - Page ID 검색: 제안 방식으로, 직접적으로 session id를 memo에서 언급하는 방식, 그 session을 retrieval에서 활용
- searching + integration: 계획된 도구 호출하여 얻은 페이지들로 IntegrateAgent가 각 페이지에서 요청 관련 정보만 추출 + 요약 > 누적 I(통합메모리) 갱신
- reflection: InfoAgent가 “이제 답변 가능한가?”에 대해 판단. 부족하다면 FollowUpRequestAgent가 후속 쿼리 질문 생성 > 다시 planning부터 (반복 수는 hyper parameter)
- 강화학습: memorizer와 researcher를 policy로 두고 downstream reward를 쓰는 policy gradient update 설계 (후속 연구로 언급)
  - memorizer: summary/page-store 구성방식을 task-oriented로 학습
  - researcher: planning & retrieval 전략을 보상기반으로 최적화

Personal note. 제안 내용이 똑부러진 것 같진 않지만, 인트로가 흥미로워서 봤습니다. 상대적으로 researcher가 무거워보이고, 동적으로 그때그때 context 가져다 쓰겠다는 흐름도 참신한 아이디어는 아닌 것 같아요.