HaluMem: Evaluating Hallucinations in Memory Systems of Agents
Meta info.
- Authors: Ding Chen, Simin Niu, Kehang Li, Peng Liu, Xiangping Zheng, Bo Tang, Xinchi Li, Feiyu Xiong, Zhiyu Li
- Paper: https://arxiv.org/pdf/2511.03506
- Affiliation: China Telecom Research Institute, Harbin Engineering Univ., MemTensor Technology
- Published: November 5, 2025
- Code: https://github.com/MemTensor/HaluMem
TL; DR
Agent memory system์ hallucination์ด ์ด๋(extract > update > QA)์์ ๋ํ๋๋์ง ์ง๋จํ๋ ๋ฒค์น๋งํฌ ์ ์

Background
- memory๋ agent์ user ์ฌ์ด ์ํธ์์ฉ์์ user ์ ๋ณด๋ฅผ ์ธ๋ถํํด์ user๋ณ personalization + ์ผ๊ด์ฑ ์ ์ง ๋ฌ์ฑ: MemOS, Mem0, Zep, Supermemory, Memobase ๋ฑ
- ๋จ์ QA ์ค์ฌ e2e ๋ฒค์น๋งํฌ๋ก๋ ์ด๋์ ๋ฌธ์ ์ธ์ง ์๋ณ ๋ถ๊ฐ: LoCoMo, LongMemEval, PrefEval, PersonaMem ๋ฑ
Problem States
- memory system์ ์ญํ ์ ์ถ์ถ(E), ๊ฐฑ์ (U), ์ง์์๋ต(QA) 3๊ฐ์ง operasation์ผ๋ก ์ ์ย
Fig 1- E: ์๋ fact๋ก ๋ํ ์ํํ๊ฑฐ๋ ์ ํจํ memory ๋์นจ
- U: ์ ๋ฐ์ดํธํด์ผ๋๋๋ฐ ๋ชปํ๊ฑฐ๋ ์๋ชป ์ ๋ฐ์ดํธ
- QA: memory์ ์๋ ์ ๋ณด ์ถ๋ก ํ๊ฑฐ๋ ๊ณผ๊ฑฐ ์ ๋ณด ์ฌ์ฉ, conflict ์ํฉ ๋ฌธ์ ๋ฑ
- system ์ถ๋ ฅ - ์ ๋ต ๊ฐ ๋น๊ต๋ฅผ ํตํด ์ค๋ฅ๋ฅผ ๊ฐ ๋จ๊ณ๋ณ๋ก ๊ท์์ํค๊ธฐ ์ํด์ ํํ annotation(=memory point) ํฌํจ๋ multi-turn + user-centric dialogue ๊ตฌ์ถ
Suggestions
HaluMem
- ์๋๋ฆฌ์ค/persona/์ธ์
ํ๋ฆ์ ์ฌ๋์ด ์ค๊ณ > ์ด๋ฅผ ๋ฐํ์ผ๋ก dialogue๋ LLM์ด ์์ฑ > ์ต์ข
memory point์ QA๋ ๋ค์ ์ฌ๋์ด ๊ฒ์ฆ ๋ฐ ์ ์
- conflict ๋ update ๋ฐ์ ์์ ๋ฑ์ ๋ํ ํ๋ฆ ์ค๊ณ๋ฅผ ๋ฐํ์ผ๋ก
- LLM์ด conflict-turn ๋ฑ์ ์ฝ์
- ์๋์ผ๋ก ์ฌ๋์ด memory point annotation
- memory point ๊ธฐ๋ฐ QA ์์ฑ ๋ฐ ์ฌ๋์ด validation์ํ: multi-hop reasoning ์ ํํ์ง, update ๋ฐ์ ์ ๋๋ก ์ก๋์ง, conflict case ์ ๋๋ก ํ ์คํธ ๋๋์ง ๋ฑ
- ๊ท๋ชจ:
- medium(~160k) ๋ฐ -long(10M) ๋ ๊ฐ์ง ๋ฒ์
- 20 ~ 50 Session
- 200 ~ 800 turn ๊ตฌ์ฑ
- long: memory-irrelavantย noiseย dialogue๋ฅผ ๊ณต๊ฒฉ์ ์ผ๋ก ์ฝ์
- chitchat์ด๋ ELI5-style ๋ํ, math reasoning trace ๋ฑ ๋๋๊ณ noise
- ์ฝ 15,000๊ฐ์ memory point: atomic persona fact๋ก ๊ตฌ์ฑ
- persona profile, preferences, habit, routines, relationships, possessions, plans, goals, location, move history, health, restrictions, skills, knowledge, update ๋ฐ์ ์ฌ๋ถ์ ๋ํ dynamic changes ๋ฑ
- memory๊ฐ ๋์จ ์๋ณธ ๋ํ turn์ index๋ฅผ ๋ถ์ฌ์ ๊ตฌ์ฑ, ์ค์ ์์คํ ์ด ๊ธฐ์ตํด์ผํ๋ NL statement๋ก ์ ๊ทํ(?)
- Memory์ valid ์์ : update๊ฐ ๋ฐ์ํ๋ฉด, ๊ณผ๊ฑฐ memory๋ invalid๋ก ์ฒ๋ฆฌ
- ์ฝ 3,400๊ฐ ์ด์์ ์ฟผ๋ฆฌ ํฌํจ: basic fact, multi-hop, dynamic update, boundary condition, conflict detection, generalization & application ๋ฑ์ผ๋ก ๊ตฌ์ฑ
- medium(~160k) ๋ฐ -long(10M) ๋ ๊ฐ์ง ๋ฒ์
- memory ๊ธฐ์ค:
- long-term relevance: ๋จ๊ธฐ chat์๋ ๊ด์ฌ ์๊ณ , ์๊ฐ์ด ์ง๋๋ ์ ํจํ ์ ๋ณด๋ง memory point๋ก ์์
- stable + consistentํ fact: ๋จ๋ฐ์ฑ ์ ๋ณด๊ฐ ์๋, ๋ฐ๋ณต๋๊ณ ๊ฐ์กฐ๋๋ ๊ตฌ์ฒด์ ์ธ ์ ๋ณด๋ฅผ ์์
- ๊ตฌ์กฐ: User + verb + object ํํ. ํ๋์ ์ฌ์ค๋ง ๋ด๋๋ก
- ์๋ฌธ์ implicitํ ์ ๋ณด๊ฐ ์๋๋ผ๋ ์ถ๋ก ํ์ง ์๊ณ ์๋ฏธ๋ฅผ ๋ช ํํ๊ฒ๋ง ํ์ด์. ๋ฐํ์ ํํ๋ ๋ฒ์๊น์ง๋ง ์์ฑ
- ~ํ ๋ฏ ์ฒ๋ผ ์ ๋งคํ ํํ์ ์ ๊ทํํ์ง ์์. ๋จ๋ฐ์ฑ์ธ ๊ฒฝ์ฐ ํนํ memory pointํ ํ์ง ์๊ณ ๋ฐ๋ณต๋ ๊ฒฝ์ฐ ๋ช ํํ ๋ ์์ฑ
- verb(attribute)์ ํจํดํ: is from, lives in, works at, prefers, dislikes, owns, has, moved to, studied at, is allergic to, is interested in
- ๊ฐ๋ฅํํ boolean์ผ๋ก ์ฒ๋ฆฌ
- coreference ํด์
- QA์ query ์ ๋ต์ ๊ทผ๊ฑฐ๋ก ํ์ฉ
- inference์์ ํ์ฉ ์ธก๋ฉด
- E: memory point ํ๋ณด ๋ฆฌ์คํ
- U: conflict memory ์ ๊ฑฐ, ๊ณผ๊ฑฐ ์ ๋ณด ์์ ๋ฐ invalid ์ฒ๋ฆฌ ๋ฑ
- QA: memory-point ๊ธฐ๋ฐ ์ ๋ต ์ฒ๋ฆฌ
Effects
Tab 3ย ์ ๋ฐ์ ์ธ Memory system์ด ๋ชจ๋ operation์์ ๊ทผ๋ณธ์ ์ผ๋ก ์ทจ์ฝํ๋ค- E: ๋์ฒด๋ก recall์ ์ค์ํ๋ precision์ด ๋ฎ์ (false memory ์์ฑ ๋ฑ)
- over-generalization : ์ปคํผ ์ค์ด๋ ค๊ณ > ์ปคํผ ์ซ์ดํจ
- U: ๋์ฒด๋ก ๋ชปํจ. update๋ฅผ ๋๋ฝํ๊ฑฐ๋ ์๋ชปํ๊ฑฐ๋ conflict ํด๊ฒฐ์ ์คํจ
- QA: basic fact๋ ๊ทธ๋๋ง ํ์ง๋ง ๋๋จธ์ง 5์ข ์ ๋ํด์๋ ์ฑ๋ฅ ๋ถ๊ดด
- ๊ธธ์ด ๊ธธ์ด์ง๋ฉด ์ฑ๋ฅ ๊ธ๋ฝ
- E: ๋์ฒด๋ก recall์ ์ค์ํ๋ precision์ด ๋ฎ์ (false memory ์์ฑ ๋ฑ)
Fig 5ย QA๋ณ ์์ธ- basic fact๋ ์ ์ด์ false memory ์์ฑํ๋ฉด ์ค์ค์ด (์ฌ์ง์ด ํ์ ํ๋ฉฐ) ์คํจ
- multi-hop: ์ฒ์ฐธํ๊ฒ ์คํจ
- dynamic update: ๊ฐ์ ํ์ ๋๋ฒ ํด์ memory update๊ฐ ์งํ๋ ์ํฉ์ ๋ํด ์ต์ ์ ๋ณด๋ฅผ ๋ฌผ์ ๋ ๊ณผ๊ฑฐ memory๋ฅผ ๋์ด์์ ์คํจ
- e.g. ๋งค ์์์ผ๋ง๋ค ์ด๋ํด > ์ด์ ๋ ์์์ผ์ ์ด๋ ์ํด
- ์ด์์ : User does not exercise on Mondays.
- ํ์ค: ๋๋ค ๋จ๊ธฐ๊ฑฐ๋ ๋ฌด์ํ๊ฑฐ๋ ํ๋ฆฐ ์ ๋ณด ์ ๋ฐ์ดํธ
- e.g. 2๋ฒ ์ด์ฌ > ํ์ฌ ๋๋ ์ด๋ ์ด์?
- ํ์ค: ๊ณผ๊ฑฐ ์ด์ฌ ์ฅ์๋ฅผ ๋์ด์ด
- e.g. ๋งค ์์์ผ๋ง๋ค ์ด๋ํด > ์ด์ ๋ ์์์ผ์ ์ด๋ ์ํด
- boundary: ์๊ฐ ๊ตฌ๋ถ์ ๋ชปํ๊ฑฐ๋ ๋ชจ๋ฅด๊ฒ ๋ค๊ณ ๋ต๋ณํด์ ์คํจ
- conflict: ์๋์ ์ผ๋ก ์ค์ํ ํธ. ์ถฉ๋๋ memory๊ฐ ๋ช ํํ๋ฉด retrieval ๋จ๊ณ์์ ๋ค ๋ฝ์์ค๊ณ ๋ชจ๋ธ์ด ํ๋ฆฐ ๊ฑธ ๊ณ ๋ฅด๊ธฐ ์ฉ์ดํด์ง๋ค๊ณ ๋ถ์
- generalization: fact memory ์ ๋์ด์๋ ๊ทธ๊ฑธ ๊ฐ์ง๊ณ preference ๊ธฐ๋ฐ ์ถ๋ก ์ ์คํจ
- memory ๋๋ฝ์ด ํฐ ๋ฌธ์ ๋ผ๊ณ ์ง์ ; ํ์ํ๊ฑธ ๋ชป์ฐพ์์ด
Tab 5ย Efficiency ์ธก๋ฉด์์ addition(memory ์ฐ๊ธฐ) ๋จ๊ณ์์ ๋ณ๋ชฉ ์ฌํ- Mem0๋ ์ฌํ๋ฉด 45์๊ฐ ๋๊ฒ, retrieval์ด ์๋์ ์ผ๋ก ๋น ๋ฆ
Personal note.
- ์ ์ฒด์ ์ผ๋ก memory system์ ์ ๋ฆฌํ๋ ์ ์ฅ์์ ์ฐธ๊ณ ํด๋ณผ๋งํ ๋ ผ๋ฌธ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค. survey paper๋ ์๋์ง๋ง related work ์ ๋ฆฌ๊ฐ ์ ๋ ํธ์ด์์ต๋๋ค. ํํธ์ผ๋ก๋ 3๊ฐ์ง operation (memory extract > update > QA) ๋ก ๊ตฌ๋ถ์กฐ์ฐจ ์ ๋๋ก ๋์ด์์ง ์์๋ ๊ฒ ํ์ฌ memory ์ฐ๊ตฌ ํํฉ์ธ๋ฐ ๋๋ฌด ๊ฑฐ์ฐฝํ ํน์ ์ข์ ๋ฌธ์ ๋ก ๊ณ ๋ฏผํ๋ ๊ฒ์ ์๋์ง ๋์๋ณด๊ฒ ํ๊ธฐ๋ ํฉ๋๋ค. conflict๋ preference๋ ํญ๋๊ฒ ๋ค๋ฃจ๊ณ ๋ ์์ง๋ง ์๋ค๊ณ ๋ ์๊ฐํ๋๋ฐ, ํ๊นํ ์ ๋๋ก ๊น์ด๊ฐ ์๋ ๊ฒ ์ฌ์ค์ ์ด ๋ฌธ์ ์ ํ์ค์ ํ๊ณ๊ฐ ์๋๊ฐ ์ถ์ ์๊ฐ๋ ๋ค๊ณ ์.
- ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์ฑ ์ธก๋ฉด์์ ๊ตฌ์กฐํ๋ NL์ ์ฌ์ฉํ๊ณ ์๊ณ , ์ด๋์ ๋ template์ผ๋ก ๊ตฌ์กฐ๋ฅผ ์ ํํ๊ณ ์์ผ๋ฉฐ, human annotation ๊ด์ ์์ explicitํ์ง ์์ผ๋ฉด guessํ์ง ์์๋ค๊ณ ํฉ๋๋ค. (implicitํ ๊ฑธ explicitํ๊ฒ ๋๋ฌ๋ด์ง ์์) ๋ชจ๋ธ์ด ์ถ๋ก ํ๊ฒ๋ ์ด์ด๋ ์๋ ์์ง๋ง, ์ ๋ต์ฒ๋ผ labelingํ์ง ์์ผ๋ ค๊ณ ์ ์ผ๋ค๊ณ ์ดํดํ์ต๋๋ค. preference๋ฅผ ๊ฐ๋ฅํ๋ฉด boolean ์์คํ ํ๋ ค๊ณ ๋ ธ๋ ฅํ๋ค๋๋ฐ ์ด ์ญ์ ์ ๋ต์ด ์๋ ๋ฌธ์ ์ ๋ํ ๋ ธ๋ ฅ์ ์ผํ์ผ๋ก ๋๊ปด์ง๋ฉฐ, ๋ชจ๋ ๋ฐ์ดํฐ์ ๊ฒฐ๊ตญ ์ฌ๋์ด ์ผ์ผ์ด ๊ฒ์ํ๊ธฐ ๋๋ฌธ์ ํ์ง ๋ณด์ฅ์ ๋ ธ๋ ฅํ ๊ฒ๋ ์ธ์์ ์ ๋๋ค.
- ๋ค๋ง hallucination์ด๋ผ๋ ํํ์ด ์ข ๋จ์ฉ๋์๋ค๋ ์ธ์์ ์๊ณ , ์ฌ์ ํ ๊ธด ๋ํ ๊ตฌ์ถ์๋ ๋๋ค ์๋ฌด๋ง ๋ผ์๋ฃ๊ธฐ ์์ค์ธ ์ (๋ฌธ์ ๋ฅผ ๋ฌธ์ ๋ก ๋ง๋ค๊ธฐ ์ํด ๊ผฌ์๋ค๊ณ ๋ณผ ์๋ ์๊ณ , ์คํ๋ ค flatํ๊ฒ ์ฌ์ด ๋ฌธ์ ์ธ๋ฐ ๋ชปํผ๋ค๊ณ ํด์ํ ์๋ ์์,,,)์ ๋๋ ๋ฐ์ดํฐ์ ์ธก๋ฉด์์ ์์ฌ์ด ๋ถ๋ถ์ผ๋ก ๋จ์ต๋๋ค.
- ํ์ ๋ถ์ ๊ด๋ จํด์๋ ์ธ์ฌ์ดํธ๊ฐ ๋๋ ๊ฒ ๊ฐ์๋ฐ, implicitํ preference ์ฆ ์ถ๋ก ์ด ํ์ํ ๊ฒฝ์ฐ์ ๋ํด ๋ฉ๋ชจ๋ฆฌ ์ ์ฐพ์์๋ค๊ณ ํด๋ ๋ชปํ๋ค๋ ๋ถ๋ถ๊ณผ update์ ๋ํด ์ ๋๋ก ์ฒ๋ฆฌํ์ง ๋ชปํ๋ ๋ถ๋ถ ๋ฑ์ ํ๊ณ๋ ์ด๋ฏธ ์ฒด๊ฐํ๋ ๋ฐ ์์ด์ ๋ฌธ์ ์์์ ์ฌํ์ธํ์ต๋๋ค.
- ์๋์ ์ผ๋ก ํ๊ฐ๋ operation๋ณ๋ก ๊ผผ๊ผผํ๊ฒ ์ธ๋ถํํ๋ ค๊ณ ๋ ธ๋ ฅํ๊ณ (์ฌ์ ํ LAAJ๋ฅผ ํ๊ณ๋ก ์ง์ ํ์ง๋ง standard์ด์ง ์์์ง), Memory๋ฅผ ์ ๋ง๋ค์๋ ํน์ ์ ์ฐ๋์ ๋ฌธ์ ๋ฅผ ๋จ์ QA๋ก ํ๊ฐํ๊ณ ์ ํ๋ ์ง๋ ๋ฐ์ดํฐ์ ์ ๋ฌธ์ ๋ฅผ ์ง์๊ธฐ ๋๋ฌธ์ ์ธ์์ ์ผ๋ก ํ๊ฐ๋ฐ๊ณ ์๋ ๊ฒ์ผ๋ก ๋ณด์ฌ์.