LightMem: Lightweight and Efficient Memory-Augmented Generation
Meta info.
- Authors: Jizhan Fang, Xinle Deng, Haoming Xu, Ziyan Jiang, Yuqi Tang, Ziwen Xu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Huajun Chen, Ningyu Zhang
- Paper: https://arxiv.org/pdf/2510.18866
- Affiliation: NUS, Zhejiang Univ
- Published: October 21, 2025
TL; DR
sensory > topic-aware short-term > sleep-time long-term memory ์
๋ฐ์ดํธ์ 3๋จ๊ณ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ ์ ์, LongMemEval ์ ํ๋ ํฅ์ ๋ฐ token/API call/runtime ๋น์ฉ ๋ํญ ์ถ์ ํ์ธ

Background
- long-term/multi-turn dialogue์ context ์์ค ๋ฌธ์ ํด์๋ฅผ ์ํ external memory ๊ตฌ์กฐ ๋์ : LangMem, A-MEM, MemoryOS, Mem0
- ์ค๋ณต + noise, turn-local processing์์ topic entanglement, ๋น์ฉ ์ง์ฝ์ ๋ฌธ์
Problem States
์ค๋ณต ์ ๋ณด ํํฐ๋ง + topic๋ณ history ๊ด๋ฆฌ + ์ค์๊ฐ ์ถ๋ก ๊ณผ update/forget ๋ถ๋ฆฌ ๋ฉ๋ชจ๋ฆฌ ์์คํ ์ ์
Suggestion
LightMem
Sensory memory- pre-compression: ํ์ดํ๋ผ์ธ ์ง์ ์ LLM-lingua2 ํ์ฉ input ์์ถ
- topic cueing: ๋ ์ค์ํ ํ ํฐ ์ ๊ฑฐํ์ฌ dialogue history ๋ถํ ์ ์ํ attention score ๊ณ์ฐ
- attention ๊ธฐ๋ฐ ๊ฒฝ๊ณ์ ์ ์ฌ๋ ๊ธฐ๋ฐ ๊ฒฝ๊ณ์ ๊ต์งํฉ์ผ๋ก ๊ฒฐ์
- Topic-awareย
short-term memoryย (Light2)- ๋ฐํ๋ฅผ ์๋ฏธ/์ฃผ์ ์ ์ฌ์ฑ์ ๋ฐ๋ผ content-adaptive boundaries(fix-window ๋์ )๋ก ๋ถํ > memory item์ผ๋ก ์์ฝ (online update)
Long-term memoryย w/sleep-time update (Light3)- CRUD. offline์์ ์ฌ๊ตฌ์ฑ/์ค๋ณต ์ ๊ฑฐ/์ถ์ํ ์ํ: ์ ์ง ๊ด๋ฆฌ๋ฅผ ์จ๋ผ์ธ ์ถ๋ก ๊ณผ ๋ถ๋ฆฌ
- ์ ์ต์ฑ (/S 4.6)
- ์๋ก ๊ด๋ จ๋์ง๋ง ๋ชจ์๋์ง ์๋ ๋ ์ ๋ณด๊ฐ ์ ์๋ ๋ LLM์ ์ด๋ฅผ ์ถฉ๋๋ก ์คํด
- ์ค๋๋ ๋ฉ๋ชจ๋ฆฌ ์ญ์ ํ ๊ฒฝ์ฐ irreversible information loss๋ฅผ ์ผ๊ธฐ
- ์ ๋ณด๋ฅผ ๋ณํฉํ๊ฑฐ๋ ๋จ์ํ ์ ํญ๋ชฉ์ ์ถ๊ฐํ ์๋ ์๊ฒ ์ง๋ง,
- ์ ์ ๋ฐฉ์์ test-time์์ soft update๋ก incremental addition๋ง ์ํ (ST) > global information ์ ์ง ๊ฐ๋ฅ
- ์๋ก ๊ด๋ จ๋์ง๋ง ๋ชจ์๋์ง ์๋ ๋ ์ ๋ณด๊ฐ ์ ์๋ ๋ LLM์ ์ด๋ฅผ ์ถฉ๋๋ก ์คํด
Effects
- Experiment setup:
- Task: LongMemEval-S (500-query, ํ๊ท 50-sess., 110k-token)
- Backbone: GPT-4o-mini, Qwen3-30B-A3B
- Baseline: Full Text/Naive RAG/LangMem/A-MEM/MemoryOS/Mem0
- Metrics: Accuracy, token/call/runtime ํจ์จ
- Results: LightMe๋ ๊ฑฐ์ ๋ชจ๋ ์งํ์ ๋ LLM ๋ฐฑ๋ณธ ๋ชจ๋์์ ์ฐ์+๊ฒฌ๊ณ +์ ์ฐ ์
์ฆ
- accuracy:
- ST online ๊ธฐ์ค ์ ํ๋ 2.7-9.65%p ํฅ์
- LT offline์ ๋น์ท
- efficiency: token์ 32-106๋ฐฐ๊น์ง, api call์ ์ต๋ 177๋ฐฐ๊น์ง ๋จ์ถ ๊ฐ๋ฅ
- temporal/multi-session/knowledge-update ์์ ํนํ ์ ์ต.
- ๋จ์ผํ์์์๋ naive RAG๊ฐ ์ถฉ๋ถํ ๊ฐ๋ ฅํ๊ธฐ๋
- accuracy:
Personal note. ์์ฑ์ผ ๊ธฐ์ค ์ด์ ๋ถํฐ ์ฃผ๋ชฉ๋ฐ๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์์ง๋์ด๋ง์ ์ผ๋ก ํฐ ํจ์จ์ ๋ฌ์ฑํ ๊ฒ ์ ์๋ฏธํด๋ณด์ด๊ณ , ์ ํ๋ ์ธก๋ฉด์์ gain์ ํฌ์ง ์์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. compression๋ฑ๋ llmlingua๋ฅผ ๊ฐ์ ธ์ค๊ธฐ ๋๋ฌธ์ ์ด๋ก ์ ๋ฐฑ๊ทธ๋ผ์ด๋๋ฅผ ์๋ฐํ๊ฒ ๊ฐ์ ธ์จ ๊ฒ์ ์๋๊ณ , ๋ค๋ง ๊ทธ ๊ตฌ๋ถ ๊ฒฝ๊ณ๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด์ ํ์ฉ๋ฉ๋๋ค. conflict์ ๋ํด ์ธ๊ธ๋ ๊ฒ ์ธ์์ ์ด์ง๋ง, ๊ด๋ จํด์ ์ด๋ค ํด๊ฒฐ์ ๊พํ๋ค๊ธฐ ๋ณด๋ค๋, ์์ฐ์ค๋ฝ๊ฒ ํด๊ฒฐ๋ ์ ์๋ค๋ ์ฌ์ง๋ฅผ ์ฃผ๋ ๋ฐฉ๋ฒ์ด๋ผ๋ ๊ฑธ ์ค๋ช ํ ์ ๋๋ก ๋ณด์ฌ์.