Belief Memory: Agent Memory Under Partial Observability
Meta info.
- Authors: Junfeng Liao, Qizhou Wang, Jianing Zhu, Bo Du, Rui Yan, Xiuying Chen
- Affiliation: MBZUAI, RIKEN AIP, UT Austin, Wuhan University
- Paper: https://arxiv.org/abs/2605.05583 (arXiv:2605.05583v2)
- Published: May 8, 2026 (arXiv preprint)
TL; DR
agent memory๊ฐ ๊ด์ธก์ ๋จ์ผ deterministic ๊ฒฐ๋ก ์ผ๋ก collapse ํด์ self-reinforcing error๋ฅผ ๋ง๋ ๋ค๋ ๋ฌธ์ ๋ฅผ ์ง๊ณ , ํ๋ณด ๊ฒฐ๋ก ๋ค์ ํ๋ฅ ๊ณผ ํจ๊ป ์ ์ง(belief)ํ๋ฉฐ noisy-OR๋ก ๊ฐฑ์ + retrieval ์ ๋ถํฌ ์ ์ฒด๋ฅผ ๋ฐํํ๋ BeliefMem ์ ์

Background
- LLM agent๊ฐ long-horizon / multi-session task๋ฅผ ์ํํ ๋, ์ธ์ ์ ๋์ด ์ง์์ ์ถ์ ํ๊ธฐ ์ํด persistent external memory์ ์์กด (Hu et al., 2025)
- 2๊ฐ์ง ๊ธฐ์กด memory ๊ณ์ด: storage ๊ด๋ฆฌ์ retrieval ์ ๋ต์์๋ง ์ฐจ์ด, ๋ณธ์ง์ ์ผ๋ก memory representation์ ๋ชจ๋ entry๋ฅผ noisy/ambiguous ๊ด์ธก์์ ์ถ๋ก ํ ๋จ์ผ categorical ๊ฒฐ๋ก (deterministic)์ผ๋ก ์ ์ฅ, ๋ชจ๋ ์ฐ์ฐ์ด all-or-nothing
- factual memory: ์ฌ์ฉ์/ํ๊ฒฝ์ ๋ํ ๊ด์ธก์ structured entry๋ก ๊ธฐ๋ก (๋ฌด์์ ๋ดค๋๊ฐ)
- Generative Agents (Park et al., 2023): natural-language memory stream + ๋ค์ค ์ ํธ retrieval
- MemGPT (Packer et al., 2023): context/recall/storage๋ฅผ virtual context๋ก ๊ด๋ฆฌ
- Mem0 (Chhikara et al., 2025): salient fact๋ฅผ ๋์ ์ถ์ถ, consolidate ํ vector retrieval
- A-MEM (Xu et al., 2025): structured note + indexing/linking
- MemoryBank (Zhong et al., 2024) forgetting curve, Zep (Rasmussen et al., 2025) temporal KG, MemOS (Li et al., 2025) memory OS, โฆ
- self-improving memory: ๊ณผ๊ฑฐ ๊ฒฝํ์์ actionable lesson์ distill (๋ฌด์์ ๋ฐฐ์ ๋๊ฐ)
- Reflexion (Shinn et al., 2023): ์คํจ ๊ฒฝํ์์ self-corrective guidance ์์ฑ
- ExpeL (Zhao et al., 2024): trajectory ์ ๋ฐ์ recurring pattern์ insight๋ก ์ง๊ณ
- Voyager (Wang et al., 2023) / MemSkill (Zhang et al., 2026): ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ skill library ํ์ฅ
- RL-based memory (Memory-R1, MEM1, Agentic Memory, MemRL): add/update/delete๋ฅผ ํ์ต๋ policy๋ก ๋์ฒด
- factual memory: ์ฌ์ฉ์/ํ๊ฒฝ์ ๋ํ ๊ด์ธก์ structured entry๋ก ๊ธฐ๋ก (๋ฌด์์ ๋ดค๋๊ฐ)
- POMDP / belief state ๋ฐฐ๊ฒฝ: ๋ณธ์ง์ ์ผ๋ก POMDP (Kaelbling et al., 1998)
- POMDP: agent๋ ์ธ๊ณ์ true state๋ฅผ ์ง์ ๋ณด์ง ๋ชปํ๊ณ user messageยทtool output ๊ฐ์ partialยทnoisy ๊ด์ธก๋ง ๋ฐ์
- POMDP์์ ๋ถํ์ค์ฑ์ hidden state์ ๋ํ ํ๋ฅ ๋ถํฌ์ธ belief state๋ก ํํ๋จ
- ์ต๊ทผ LLM agent๋ฅผ partial observability ํ์์ ๋ณด๋ ์ฐ๊ตฌ (Belief Engine, CoBelWorld, PABU ๋ฑ) ๋ฑ์ฅ
- memory system์ ์ด ํจ์๋ฅผ ๋ฌด์: ๊ด์ธก์ ๊ณง ground truth๋ก ๋ฑ์น์์ผ ๋ถํ์ค์ฑ์ ๋จ์ผ ๊ฒฐ๋ก ์ผ๋ก collapse
- POMDP: agent๋ ์ธ๊ณ์ true state๋ฅผ ์ง์ ๋ณด์ง ๋ชปํ๊ณ user messageยทtool output ๊ฐ์ partialยทnoisy ๊ด์ธก๋ง ๋ฐ์
Problem States
deterministic memory์ ํํ ์์ฒด๊ฐ partial observability์ ๋ง์ง ์์ ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์ค๋ฅ ๋์ + ํ๋
- Deterministic Bottleneck: ๊ฐ latent attribute์ ๋ํด point estimate(๊ฐ์ฅ ๊ทธ๋ด๋ฏํ ๊ฐ์ค ํ๋)๋ง ์ ์ฅํ๊ณ ๋๋จธ์ง ํ๋ณด์ ๊ทธ ํ๋ฅ ํ๊ธฐ โ ์์ ํ belief๊ฐ ๋ด๊ณ ์๋ ๋ถํ์ค์ฑ์ด ์ฌ๋ผ์ง
- Self-Reinforcing Error: ์ ์ฅ๋ ๋จ์ผ ๊ฒฐ๋ก ์ agent๊ฐ ํ๋์ ๊ทผ๊ฑฐ๋ก ์ผ์ โ ํ๊ธฐ๋ ๋์ ๊ฐ์ค์ ์ํํ ํ๋์ ํ์ง ์์ โ ์๋ชป๋ ๊ฒฐ๋ก ๊ณผ ์ผ์นํ๋ ๊ด์ธก๋ง ์ถ๊ฐ๋ก ์์ง โ ๊ทธ ๊ฒฐ๋ก ์ ์๊ฐ์ ๊ฑธ์ณ ๊ฐํ
- e.g.
Fig 1API X๊ฐ 3๋ฒ timeout โ โAPI X failedโ ์ ์ฅ โ ์ดํ ์ธ์ ์์ retry ์ ํจ โ ์ผ์์ rate limiting์ด์์ ๊ฐ๋ฅ์ฑ์ ์์ ๊ด์ธก ๋ชป ํจ (= self-reinforcing error) - update-based ๋ฐฉ๋ฒ๋ ์ฌ์ ํ ํ๊ณ: ๊ณ ์ณ๋ด์ผ ๋ ๋ค๋ฅธ ๋จ์ผ ๊ฒฐ๋ก ์ผ๋ก ๋์ฒด๋ ๋ฟ, ๋ค์ transient error ํ ๋ฒ์ด๋ฉด ๋๋ก ์ญ์ ๋ ๊ฒ
- e.g.
- ๋ณต์ ๋ถ๊ฐ๋ฅ์ฑ: point estimate๋ก collapse๋ ๋ค์๋ ํ๊ธฐ๋ ๋์์ posterior support๋ฅผ memory๋ง์ผ๋ก ์ฌ๊ตฌ์ฑํ ์ ์๊ณ , ์์ ํ ์ evidence๋ก ์ฒ์๋ถํฐ ๋ค์ ์์์ผ ํจ
- โ ๋ฐ๋ผ์ ํ์ํ ์กฐ๊ฑด
- [storage ๋จ๊ณ] ํ๋ณด ๊ฒฐ๋ก ๊ณผ ๋ถํ์ค์ฑ์ ๋ฒ๋ฆฌ์ง ์๊ณ ๋ณด์กดํ๋ ํํ
- [retrieval ๋จ๊ณ] ๊ทธ ๋ถํ์ค์ฑ์ ๋ค์ agent์๊ฒ ๋ ธ์ถ, ๋์์ ์์ฌ๊ฒฐ์ ์์ ์ ๋ณด์ด๊ฒ ํ๋ ๋ฉ์ปค๋์ฆ
- [update rule] ์ ๊ด์ธก์ ๋ํ ํ๋ฅ ์ ์ง์ ์ผ๋ก ๊ฐฑ์ (๊ฐํ ๊ฒฐ๋ก ์ ๊ฐํํ๊ณ ์ฝํ ๊ฒฐ๋ก ์ ์ฝํ)
Suggestions
์์ ์ ์: belief state์ deterministic ํ๊ณ
- POMDP ์ค์ : agent๋ ๋งค ์์ ๊ด์ธก $o_t$๋ฅผ ๋ฐ๊ณ ํ๋ $a_t$๋ฅผ ๊ณ ๋ฅด์ง๋ง ์ธ๊ณ์ ์ง์ง ์ํ $s_t$๋ ์ง์ ๋ชป ๋ด.
- API X๊ฐ ์ฃฝ์๋์ง ์๋๋ฉด ์ผ์์ ์ผ๋ก ๋งํ๋์ง($s_t$)๋ hidden, ๊ด์ธก๋๋ timeout($o_t$)์ ๊ทธ ํ์ ์ผ ๋ฟ
- belief state $b_t$: ์ง๊ธ๊น์ง์ ๊ด์ธก/ํ๋ ๊ธฐ๋ก์ผ๋ก ์กฐ๊ฑดํํ hidden state์ posterior ๋ถํฌ
- ๋ณธ ๊ฑธ ์ข ํฉํ๋ฉด ์ง์ง ์ํ๊ฐ ๋ฌด์์ผ ํ๋ฅ ๊ณ์ฐ โ ์ต์ ํ๋์ ํ์ํ ์ ๋ณด๋ ๋จ์ผ ๋ถํฌ (sufficient statistic)
- ๊ธฐ์กด external memory๋ ๊ฒฐ๊ตญ ์ ๊ทผ ๋ถ๊ฐ๋ฅํ $b_t$๋ฅผ ์์ถํด ํ๋ด ๋ด๋ ์ฅ์น: ๊ด์ธก์ผ๋ก ์กฐํ(Read)ํด ํ๋์ ๊ณ ๋ฅด๊ณ , ์ ๊ด์ธก์ด ์ค๋ฉด ๊ฐฑ์ (Update)
- attribute $c$ = ์ถ์ ํ๋ ์ฌ์ค ๋จ์ (user preference, tool status, object-location ๋ฑ)
- ๊ทธ attribute๊ฐ ๊ฐ์ง ์ ์๋ ๊ฒฐ๋ก ๋ค์ด ํ๋ณด ๊ฐ์ค
- ํ๋ณด $h$์ ๋ํ belief๋ฅผ $b^{(c)}_t(h)$๋ก ํ๊ธฐ
- deterministic memory๋ ํ๋ฅ ์ต๋๊ฐ ํ๋ณด ํ๋๋ง ์ ์ฅํ๊ณ ๋๋จธ์ง๋ drop, ideal memory๋ ํ๋ณด ๋ถํฌ ์ ์ฒด(ํฉ = 1) ์ ์ฅ
- e.g. failed 0.5 / rate-limit 0.35 / network 0.15
- deterministic: โfailedโ๋ง ๋จ๊ธฐ๊ณ , ํ ๋ฒ ๋ฒ๋ฆฐ ๋ถํ์ค์ฑ์ memory๋ง์ผ๋ก ๋ณต์ ๋ถ๊ฐ
- ideal: ์ ๋ถ ๋จ๊ธฐ๊ณ ์ง์์ ์ผ๋ก ๊ฐฑ์
Belief Memory: ๋ฌด์์ ์ ์ฅ? (Representation)
- ideal ๋ถํฌ์ ํ๊ณ โ ์ ํํ ๋ถํฌ ๋์ ๊ทผ์ฌ belief๋ฅผ ์ฌ์ฉ: ์ ์ฅ๊ฐ์ ์๋ฐํ posterior๊ฐ ์๋๋ผ ranking/๊ฐฑ์ ์ฉ confidence score
- ํ๋ณด๊ฐ ๋ฏธ๋ฆฌ ์ ํด์ง์ง ์๊ณ ๋ํ ์ค ์๋ก ์๊ฒจ ์ ๊ทํ ๋ถํฌ ์ ์๊ฐ ์ด๋ ค์
- ๋งค ๊ด์ธก๋ง๋ค ๋ชจ๋ ํ๋ณด๋ฅผ ๊ฐฑ์ ํ๋ฉด ๋น์ฉ ์ธก๋ฉด ๋นํจ์จ
- (๊ทผ์ฌ 1) $H_{\text{sub}}(c)$: ์ฆ๊ฑฐ๊ฐ ์ค์ ๋ก ๋ณธ ํ๋ณด๋ง ์ ์ฅ
- ์ ์ฅ๋์ด (์ ์ฒด ํ๋ณด ์๊ฐ ์๋๋ผ) ๋ณธ ์ฆ๊ฑฐ์ ๋น๋ก, ์ ๋ณธ ํ๋ณด๋ ๋น์ฉ 0
- ๋ชจ๋ ๊ฐ๋ฅํ ํ๋ณด๊ฐ ์๋๋ผ, ์ฆ๊ฑฐ๊ฐ ์ค์ ๋ก ํ ๋ฒ์ด๋ผ๋ ์ง์งํ ํ๋ณด๋ง ์ ์ฅ
- (๊ทผ์ฌ 2) confidence $p^{(c)}_t(h)$: ํ๋ณด๋ณ ๋
๋ฆฝ ์ ์ง, ํฉ = 1๋ก ์ ๊ทํํ์ง ์์
- ๊ฐ ์ซ์๋ ํ๋ณด ํ๋๋ง ๋๊ณ ๋ณด๋ฉด ์ฆ๊ฑฐ๊ฐ ์ผ๋ง๋ ๊ฐํ๊ฒ ์ง์งํ๋์ง์ ๋ํ confidence
Belief-aware Memory Update: Add / Merge / Contradiction (Fig 2)
- ์ ๊ด์ธก์ด ์ค๋ฉด LLM์ด ํ๋ณด ๊ฒฐ๋ก ๋ค๊ณผ ๊ฐ confidence๋ฅผ ๋ฝ๊ณ , ์ ์ค ํ๋๋ก ์ฒ๋ฆฌ
Add(์ฒ์ ๋ณด๋ attribute): ์ entry๋ก ๋ฑ๋ก, ์ด๊ธฐ confidence๋ $[0.7, 0.9]$ ๊ตฌ๊ฐ์์ ์์ (0์ด๋ 1์ด ๋์ง ์๋๋ก)Merge(์ด๋ฏธ ์๋ attribute๋ฅผ ์ง์งํ๋ ๊ด์ธก์ผ ๋): noisy-OR๋ก ๊ธฐ์กด confidence๋ฅผ ๋์ด์ฌ๋ฆผ
- ์ง์ง ์ฆ๊ฑฐ๊ฐ ๋ค์ด์ฌ์๋ก confidence๊ฐ ์ฌ๋ผ๊ฐ๊ธฐ๋ง ํ๊ณ (๋จ์กฐ ์ฆ๊ฐ) 0.99์์ ๋ฉ์ถค
- $\Delta$: ์ ๊ด์ธก์ด $h$๋ฅผ ์ผ๋ง๋ ๊ฐํ๊ฒ ์ง์งํ๋์ง
- LLM์ด ๋งค๊ธด confidence์ด์ง ๋ณด์ ๋ likelihood๊ฐ ์๋
- ๊ฐฑ์ ์ ์ ๋ฒ์ ์ archive: โ์ด์ ์ธ์ ์ ์ด๋ป๊ฒ ์๊ณ ์์์งโ ๊ฐ์ temporal query ๋์ (Appendix B.3)
Contradiction(๊ฐ์ attribute์์ ๋ฐ๋ ๊ฒฐ๋ก ์ ์ง์งํ๋ ๊ด์ธก): ๊ธฐ์กด $h$์ confidence๋ฅผ 0.25๋ก ๊ฐ๋ฑ- ๋ชจ์ ํ์ ์ rule-based ํค์๋ ๋งค์นญ, ์ด์ ๊ฐ์ ๋ณด์กด
- noisy-OR์ด ์๋ก๋ง ์์ง์ด๋ฏ๋ก ํํฅ์ ์ด ๊ท์น์ด ์ ๋ดํ๋ ๋น๋์นญ ๊ตฌ์กฐ
Belief-aware Retrieval
- retrieval ์ค๊ณ: ํ๋ณด ๋ถํฌ๋ฅผ ๋ณด์กดํ๋ storage
- storage์์ ๋ถํ์ค์ฑ์ ๋ณด์กดํด๋ retrieval์์ ๊ฒฐ๋ก ํ๋๋ก ์์ถํ๋ฉด ์๋ฏธ ์์ผ๋ฏ๋ก, retrieval๋ ๋ถํฌ ๋จ์๋ก ๋์ํ ์ ์๋๋ก
- entry๋ณ ์ ์:
- (์ง๊ธ ๊ด์ธก๊ณผ ์ผ๋ง๋ ๊ด๋ จ ์๋) ร (์ต๊ทผ์ ๊ฐฑ์ ๋๋): $\text{sim}$์ embedding 0.7 + lexical 0.3 hybrid, $\lambda^{\tau}$๋ ์ค๋ ์ ๊ฑด๋๋ฆฐ entry์ผ์๋ก ์ ์๋ฅผ ๊น๋๋ก decay
- staleness๋ ๊ฒ์ ์ฐ์ ์์๋ง ๋ฎ์ถ๊ณ ๊ทธ ์์ confidence ๊ฐ ์์ฒด๋ ์ ๊ฑด๋๋ฆผ (recency โ belief)
- Read: ์ ์ ์์ K๊ฐ๋ฅผ ๊ณจ๋ผ ๊ฐ attribute์ ํ๋ณด ๋ถํฌ๋ฅผ ํต์งธ๋ก output
- agent๋ ๊ฒฐ์ ์ง์ ์
failed 0.1 / rate-limit 0.8๊ฐ์ ๋ถํฌ๋ก ๋ ๋์ ์ ์ฒด๋ฅผ ๋ด - deterministic์ฒ๋ผ ์ ์ฅ ์์ ์ ์ง์์ง์ง ์์ผ๋ retry ๊ฐ์ ๋์ ํ๋์ ๋ค์ ์๋ ๊ฐ๋ฅ
- agent๋ ๊ฒฐ์ ์ง์ ์
Effects
- Experimental setup
- benchmark
- LoCoMo (Maharana et al., 2024)
- long-term ๋ํ memory, ํ๊ท ~9,000 token, ์ต๋ 35 session
- 4 category: single-hop / multi-hop / temporal reasoning / open-domain
- metric: F1, BLEU-1
- ALFWorld (Shridhar et al., 2020)
- text ๊ธฐ๋ฐ embodied, 6๊ฐ household goal
- in-distribution Seen(140 ep) / out-of-distribution Unseen(134 ep) ๋ถ๋ฆฌ โ Unseen์ด memory transfer ์ง์ ์ธก์
- metric: success rate(SRโ), solved episode ํ๊ท step(โ), horizon 50-step
- LoCoMo (Maharana et al., 2024)
- baseline
- LoCoMo: LoCoMo baseline, ReadAgent, MemoryBank, MemGPT, A-MEM, Mem0
- ALFWorld: + LangMem, MemoryOS, No-Memory(ํ์ฌ ๊ด์ธก๋ง์ผ๋ก ํ๋)
- evaluation
- LoCoMo: embedding
text-embedding-3-small, base = GPT-4o / GPT-4o-mini - ALFWorld: base = Qwen3-Next-80B-A3B-Instruct, Contriever retrieval, memory bank 3,000 expert trajectory (eval trace ๋ฏธ์ฌ์ฉ)
- ๊ณตํต
- $[p_{\min}, p_{\max}] = [0.7, 0.9]$
- decay $\lambda$ = 0.5(LoCoMo) / 0.1(ALFWorld)
- retrieval Top-K = 20 (LoCoMo multi-hop/temporal/open-domain์ 30)
- attribute๋น ์ต๋ ํ๋ณด 4๊ฐ
- LoCoMo: embedding
- benchmark
- Results
- LoCoMo
Tab 1: BeliefMem์ด GPT-4o-mini / GPT-4o ๊ธฐ์ค ๋ชจ๋ ํ๊ท ์ต๊ณ- temporal 51.88 / 45.78, multi-hop 40.51 / 32.24์์ ํฐ ํญ ์ฐ์ โ ๊ด์ธก ์ถฉ๋ ํด์ ๋ฐ evidence ์ง๊ณ๊ฐ ํ์ํ task์ ๊ฐํ๋ค๊ณ ์ฃผ์ฅ
- temporal ๊ฐ์ธ๋ historical version archiving(๊ณผ๊ฑฐ ์ํ๋ฅผ timestamp๋ก ๋ณด์กด)์์ ์ง์ ๊ธฐ์ธํ๋ค๊ณ ์ฃผ์ฅ
- temporal 51.88 / 45.78, multi-hop 40.51 / 32.24์์ ํฐ ํญ ์ฐ์ โ ๊ด์ธก ์ถฉ๋ ํด์ ๋ฐ evidence ์ง๊ณ๊ฐ ํ์ํ task์ ๊ฐํ๋ค๊ณ ์ฃผ์ฅ
- ALFWorld
Tab 2: Seen/Unseen ์ ๋ฐ์์ ๋ชจ๋ baseline ์ํ- 2์(ReadAgent) ๋๋น +11%, ๋๋จธ์ง baseline ํ๊ท ๋๋น +99% (๋จ ์ด ํ๊ท ์๋ No-MemoryยทMemoryOS ๊ฐ์ ์ฝํ baseline ํฌํจ)
- BeliefMem (corpus 50%๋ง ์ฌ์ฉ): Unseen SR ์ต๊ณ ์ฑ๋ฅ, ํ๊ท SR 59.88 โ full corpus(58.66)๋ณด๋ค Unseen์์ ์คํ๋ ค ๋ ์ข์
- trade-off: full corpus๋ Seen ์ต๊ณ (63.57), 50%๋ Unseen ์ผ๋ฐํ ์ต๊ณ โ in-distribution memory๊ฐ ๋ง์์ง๋ฉด seen trajectory ์๊ธฐ๋ก ํธํฅ
- ์ ์๋ โplausibleํ์ง๋ง ๊ฒฐ์ ์ ์ด์ง ์๋คโ๊ณ ํํ
- Ablation
Tab 3: ๊ฐ ๊ตฌ์ฑ์์ ๋ชจ๋ ์ค์ํ๋ค๋ ๊ฒฐ๋ก- w/o belief-based memory(deterministic๋ก collapse): LoCoMo F1 42.38 โ 22.58, ALFWorld SR 59.88 โ 28.71 (๊ฐ์ฅ ํฐ ํ๋ฝ)
- w/o belief-aware retrieval: ํ๋ณด๋ ๋๋ ํ๋ฅ ํ๊ธฐ
- ๋ค์ค ๊ฐ์ค ์ ์ง๋ง์ผ๋ก๋ ์ผ๋ถ ํจ๊ณผ๋ ์์ผ๋, multi-hop/open-domain ๊ฐ์ ์ถฉ๋ task์์ ๊ธ๋ฝ
- w/o Add: ์ ๊ท attribute ํธ์ ๋ถ๊ฐ โ ์ฌ์ค์ ๋ถ๊ดด
- w/o Merge: ํ๋ฅ ์ด ์ด๊ธฐ๊ฐ์ frozen โ ์ ์ memory
- ๋ฐ์ดํฐ ํจ์จ
Fig 4a: corpus 500~3,000์์ robustํ๊ณ corpus 50%๋ง์ผ๋ก ์ baseline ๋ฅ๊ฐ- 500๊ฐ(16.67%)๋ก๋ 6๊ฐ ์ค 5๊ฐ ๋ฅ๊ฐ
- belief ์๋ ด
Fig 4b: Top-1 rate(true ๊ฒฐ๋ก ์ด ์ต๊ณ confidence๋ฅผ ๋ฐ๋ ๋น์จ)๊ฐ evidence ๋์ ์ ๋ฐ๋ผ ์ฝ 88%๊น์ง ์์น- raw frequency ๊ธฐ๋ฐ baseline์ noise์ ๋ถํฌ๊ฐ ์๊ณก๋์ด ์๋ ด ์คํจ
- adversarial correction
Fig 3: ๊ฐํ๊ฒ ํ๋ฆฐ ๊ฒฐ๋ก ์ ์ฃผ์ (102 sample) ํ valid/noisy ๊ด์ธก์ ์์ด ๊ต์ - correction rate์ด deterministic ๋๋น ๊ฑฐ์ 2๋ฐฐ, ํ๊ท ๊ต์ step๋ ์ฝ 2๋ฐฐ ์ ๋ ๋ ๋น ๋ฆ
- token ๋น์ฉ
Fig 5: LoCoMo์์ generation๋น ํ๊ท 1,414 token (Mem0 ์ฝ 2K / A-MEM 1.7K)์ผ๋ก ์คํ๋ ค ์ ์
- LoCoMo
Personal note. ์ฐ๊ตฌ๋ฏธํ ์์ ์ธ๊ธํ๋ ๊ฒ ๊ฐ์๋ฐ, memory๋ฅผ distribution์ฒ๋ผ ๊ฐ์ ธ๊ฐ๋ ์ฐ๊ตฌ์ ๋๋ค. ๊ฒฐ๊ณผ์ ์ธ ์ฑ๋ฅ์ ์ข์๋๋ฐ, ์ด๋ก ์ ์ผ๋ก ์๋ฐํ์ง๋ ์์๋ค๊ณ ์ธ๊ธ๋๊ธด ํ๋๋ฐ ๊ทธ๋์ ๊ทธ๋ฐ์ง POMDP๊ฐ ๋ฉ์๋๋ฅผ ์ ๋ํ๋ค๊ธฐ๋ณด๋ค ์ฌํ์ ์ผ๋ก ์ ๋นํํ๋ ์๋จ์ผ๋ก ์ฝํ๋ ๋ถ๋ถ์ด ์์ต๋๋ค. ์ค์ ๋ก ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ด๋ป๊ฒ ์๊ฒผ๋์ง ์ดํด๋ณด๋ ค ํฉ๋๋ค.