H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions
Meta info.
- Authors: Shiping Zhu, Yibo Yang, Zhengyang Wang, Tiancheng Shen, Dandan Guo, Ming-Hsuan Yang
- Affiliation: Jilin University, Shanghai Jiao Tong University, University of California at Merced
- Paper: https://arxiv.org/abs/2606.09461
- Published: June 9, 2026 (arXiv preprint)

TL; DR
agent๊ฐ participant๊ฐ ์๋ observer๋ก์ human-human ๋ํ๋ฅผ ๊ด์ฐฐ+๊ธฐ์ตํ๋ ์ํฉ์ ํ๊ฐํ๋ multimodal, multi-session, multi-party ๋ฉ๋ชจ๋ฆฌ ๋ฒค์น๋งํฌ H2HMem ์ ์
Review Video

Background
- LLM agent์ ์๋ก์ด ๋ฐฐ์น ํ๊ฒฝ: human-assistant ๋ํ์ participant๊ฐ ์๋๋ผ human-human ๋ํ์ observer
- meeting assistant, clinical documentation (ambient AI scribe), Zoom AI Companion ๋ฑ ์ค์์ฉ์์ agent๋ ์ 3์๋ก ๋ํ๋ฅผ ๋ฃ๊ณ ์ดํ ์ง์์ ๋ตํจ (Asthana et al., 2025; Razaghi et al., 2026)
- ์ฌ๋๋ค ๊ฐ ์ ๋ณด ๋ถ์ฐ์ ์ถ์ ํ๊ณ , ๊ธด ์๊ฐ ๋ฒ์์์ ๋งฅ๋ฝ์ ์ ์งํ๊ณ , modality ๊ฐ ์ ํธ๋ฅผ ํตํฉํด์ผ ํจ
- observer setting ๊ณ ์ ์ ์ธ ๊ฐ์ง ๋์
Fig 1- multimodal: ์ฌ๋๋ค๋ผ๋ฆฌ ์ฌ์ง, ์คํฌ๋ฆฐ์ท์ ์์ฐ์ค๋ฝ๊ฒ ๊ณต์ (Lee et al., 2024)
- discourse ํ์: anaphora, deixis ํด์๋ฅผ ์ํด isolated fact retrieval์ด ์๋ evolving memory์ ๋ํ reference resolution ํ์
- multi-participant: ์ฌ๋ฌ ํ์๊ฐ ๋น๋๊ธฐ์ ์ผ๋ก, ๋๋ก๋ ์์ถฉํ๋ ์ ๋ณด๋ฅผ ๊ธฐ์ฌ (Abbo et al., 2025)
- ๊ธฐ์กด ๋ฉ๋ชจ๋ฆฌ ๋ฒค์น๋งํฌ์ ๊ณต๋ฐฑ
Tab 1- ๋๋ถ๋ถ single-user, text-only, human-assistant: LongMemEval, PersonaMem, MemoryAgentBench (Wu et al., 2025; Jiang et al., 2025; Hu et al., 2026)
- LoCoMo๋ vision์ ํฌํจํ์ง๋ง dyadic ํ์ (Maharana et al., 2024); EverMemBench๋ multi-party์ง๋ง text-only (Hu et al., 2026)
- multimodality, dyadic & multi-party, long-horizon์ ํตํฉ ํ๋ ์์์ ๋์์ ๋ค๋ฃจ๋ ๋ฒค์น๋งํฌ ๋ถ์ฌ
- ๋ฉ๋ชจ๋ฆฌ ๋ฉ์ปค๋์ฆ ๊ฐ๊ฐ์ ํ๊ณ: ์๋ ์ธ๊ฐ์ง ๊ฐ๋ ๋ชจ๋ human-assistant setting์์ ๊ฐ๋ฐ/ํ๊ฐ โ multimodal human-human ํ๊ฒฝ์์์ ์ ํจ์ฑ ๋ฏธ๊ฒ์ฆ
- context window ํ์ฅ: ๋จ์ํ์ง๋ง ๋น์ฉ ํฌ๊ณ long-context degradation ๋ฐ์, cross-session persistence ์์
- retrieval-augmented memory: ํ์ฅ์ฑ ์์ผ๋ factual recall ์์ฃผ, episodic dependency์ causal structure์ ์ทจ์ฝ (Lewis et al., 2020)
- ๋ช ์์ memory module (write/index/summarize/forget): A-Mem, MemoryOS (Xu et al., 2026; Kang et al., 2025)
Problem States
multimodal human-human ๋ํ๋ฅผ ๊ด์ฐฐํ๋ agent์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ ์ ์๋๊ฐ
- ์ค์ human-human ๋ํ ์์ง์ privacy ์ํ์ด ์ปค์ de-identification์ผ๋ก๋ ์์ ํด์๊ฐ ์ด๋ ค์ โ privacy-preserving ์์ฑ ํ์ดํ๋ผ์ธ ํ์
- ๋จ์ recall ์ธก์ ๋ง์ผ๋ก๋ ๋ถ์กฑ โ discourse ํด์, ์ธ๊ณผ ์ถ๋ก , conflict ์ฒ๋ฆฌ๊น์ง ํฌ๊ดํ๋ ํ๊ฐ taxonomy ํ์
- dyadic๊ณผ multi-party๋ ์ ๋ณด ๋ถ์ฐ ๊ตฌ์กฐ๊ฐ ๋ค๋ฆ โ ๋ interaction type์ ๊ฐ์ ํ๋ ์์์ ๋น๊ต ๊ฐ๋ฅํด์ผ ํจ
Suggestions
์์ ์ ์
- dialogue: $S = (s_1, \dots, s_T)$, ๊ฐ session $s_t$๋ timestamp $\tau_t$๊ฐ ๋ถ์ ํ๋ฃจ์น ๋ํ (ํ๋์ ํ ํฝ ์ค์ฌ)
- utterance: multimodal tuple $u_{t,i} = (p_{t,i}, x_{t,i}, v_{t,i})$
- $p_{t,i} \in \mathcal{P}$: ํ์, $x_{t,i}$: ํ ์คํธ, $v_{t,i}$: optional ์ด๋ฏธ์ง
- $\lvert \mathcal{P} \rvert = 2$๋ฉด dyadic, $\lvert \mathcal{P} \rvert \geq 3$์ด๋ฉด multi-party
- memory์ ์ง์ ์๋ต: $\mathcal{M}_T = {m_1, \dots, m_N}$, $\mathcal{R} = \mathrm{retrieve}(q, \mathcal{M}_T)$, $a = \mathrm{LLM}(\mathcal{R}, q)$
- storage-retrieve-answer์ ํ์ค ์ธ๋ถ ๋ฉ๋ชจ๋ฆฌ ์ถ์ํ; ๋ฒค์น๋งํฌ๋ ์ด ์ถ์ํ๋ฅผ ๋ฐ๋ฅด๋ ์ด๋ค ๋ฉ๋ชจ๋ฆฌ ์์คํ ์ด๋ plug-in ํ๊ฐ ๊ฐ๋ฅ
๋ฐ์ดํฐ ๊ตฌ์ถ: human-in-the-loop 5-stage (Fig 2)
- ์ญํ ๋ถ๋ฆฌ:
- ์ธ๊ฐ: director (์๋๋ฆฌ์ค ์ผ๊ด์ฑ, visual grounding, ํ์ง ๊ด๋ฆฌ)
- LLM: scriptwriter (๋ํ, ์๋๋ฆฌ์ค, QA ์์ฑ)
- online conversational setting ์ฑํ: ๋ฉ์์ง ํ๋ซํผ์ ๋น๋๊ธฐ ๋ฉ์์ง ๊ตํ ํ๊ฒฝ
- ecological validity, ๊ตฌ์กฐํ๋ ์ ๋ณด ํ๋ฆ, ๋ค์ํ ํ ํฝ๊ณผ ๋ค์ํ ์ฐธ์ฌ์ ์์ฉ์ ์ ์ถฉ์
- [Stage 1] participant profile ์์ฑ: ๊ตฌ์กฐํ๋ schema (์ฑ๊ฒฉ, ๋ฐฐ๊ฒฝ, ๋งํฌ ๋ฑ) ๊ธฐ๋ฐ
- DeepSeek-V3๊ฐ profile ์์ฑ
- dyadic์ 2์ธ, multi-party๋ 4~6์ธ profile
- [Stage 2] scenario ๊ตฌ์ฑ: 11๊ฐ ๊ณตํต ํ ํฝ์์ sampling
- ํ ํฝ๋ณ session-level outline๊ณผ image keyword ์์ฑ
- outline์ด temporally ordered๋์ด multi-session scenario $S$๋ฅผ ํ์ฑ
- [Stage 3] ์ด๋ฏธ์ง ์์ง๊ณผ human refinement: ์น ๊ฒ์ + text-to-image ์์ฑ + ์์์
ํธ์ง
- annotator๊ฐ utterance-์ด๋ฏธ์ง ์ ํฉ, ํด์๋, ํ ํฝ ์ ํฉ์ฑ ๊ธฐ์ค์ผ๋ก filter/refine (80 person-hours)
- [Stage 4] captioning๊ณผ ๋ํ ์์ฑ
- GPT-4o๊ฐ caption ์์ฑ, DeepSeek-V3๊ฐ profile + outline + caption ์กฐ๊ฑด๋ถ๋ก ๋ํ ์์ฑ
- DeepSeek-V3๋ ์ด๋ฏธ์ง๋ฅผ ์ง์ ์ฒ๋ฆฌํ์ง ๋ชปํ๋ฏ๋ก caption์ด ๋งค๊ฐ
- [Stage 5] QA ๊ตฌ์ฑ๊ณผ ๊ฒ์ฆ
- DeepSeek-V3๊ฐ 9๊ฐ task type๋ณ QA ์์ฑ
- human annotator๊ฐ ์ ์ผ์ฑ/๋ช ํ์ฑ/๋์ด๋ ๊ฒ์ฆ (40 person-hours)
- inter-annotator agreement: ์ด๋ฏธ์ง refinement Fleiss $\kappa = 0.83$, QA ๊ฒ์ฆ $\kappa = 0.79$
- ์ต์ข
๊ท๋ชจ
Tab 2- 25 dialogues (dyadic 20 / multi-party 5), 309 sessions, 7,078 rounds, 1,300 images, 2,236 QA pairs
- dyadic: ํ๊ท 14.2 sessions, session๋น 18.7 rounds๋ก ๊ธด horizon, ๋ฎ์ ๋ฐ๋
- multi-party: ํ๊ท 5.0 sessions, session๋น 70.5 rounds๋ก ์งง์ horizon, ๋์ ๋ฐ๋
Task taxonomy: 3๊ฐ ๋ฒ์ฃผ 9๊ฐ task (Fig 3)
- Memory Recall: ๋ช
์์ ์ผ๋ก ์ ์๋ multimodal ์ ๋ณด์ retrieval ํ๊ฐ
- Unimodal Precise Recall (UPR): ๋จ์ผ modality์์ ์ ํํ ์ฌ์ค ํ์
- Cross-modal Related Retrieval (CRR): text์ image ๊ฐ ์ ๋ ฌ๋ ๋ด์ฉ์ cross-modal ๊ฒ์
- Knowledge Resolution (KR): session ๊ฐ ๊ฐฑ์ ๋ ์ง์์์ ํ์ฌ ์์ ์ ์ฌ๋ฐ๋ฅธ ๊ฐ ํด์
- Memory Reasoning: ์๊ฐ๊ณผ ์ฐธ์ฌ์๋ฅผ ๊ฐ๋ก์ง๋ฅด๋ ์์ ์ถ๋ก ํ๊ฐ
- Multimodal Causal Reasoning (MCR): text์ image ์ฌ์ด์ ์ธ๊ณผ ๊ด๊ณ ์ถ๋ก
- Reference & Evolution Tracking (RET): anaphora/deixis ํด์์ entity ๋ณํ ์ถ์
- Temporal Reasoning (TR): timestamp์ ๋ฐํ ์์น ๊ธฐ๋ฐ ์ฌ๊ฑด ์์ ์ถ๋ก
- Memory Application: ๋์ ์ํฉ์์์ ๋ฉ๋ชจ๋ฆฌ ํ์ฉ ํ๊ฐ
- Test-Time Learning (TTL): ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ ์๋๋ฆฌ์ค์ ์ ์ฉ
- Conflict Detection (CD): ์ ์ง์ ์ด ๋ฉ๋ชจ๋ฆฌ์ ๋ชจ์๋๋์ง binary ํ๋จ
- Answer Refusal (AR): ๋ฉ๋ชจ๋ฆฌ์ ์๊ฑฐ๋ ์ถ๋ก ๋ถ๊ฐํ ์ง๋ฌธ์ ๋ต๋ณ ๊ฑฐ๋ถ
- QA ๋ถํฌ: ์ธ ๋ฒ์ฃผ๊ฐ ๊ฐ 32~33%๋ก ๊ท ๋ฑํ๋, KR (44๊ฐ, 2.0%)๊ณผ TR (45๊ฐ, 2.0%)์ ํ๋ณธ์ด ์์
Effects
- Experimental setup
- ๋ฉ๋ชจ๋ฆฌ ๋ฐฉ๋ฒ 6์ข
์ ๋ ๊ณ์ด๋ก ๋น๊ต
- text-based: Full Memory (Text), NaiveRAG, A-Mem
- ์ด๋ฏธ์ง๋ GPT-4o caption (256 token ์ ํ)์ผ๋ก ๋ณํํด ์ ์ฅ
- multimodal: Full Memory (MM), MuRAG, NGM
- raw image๋ฅผ 224ร224๋ก ์ ์ฅ ๋ฐ ๊ฒ์
- text-based: Full Memory (Text), NaiveRAG, A-Mem
- backbone MLLM 3์ข : Qwen2.5-VL-3B/7B-Instruct, GPT-4.1-Nano (temperature 0.1)
- retriever: text์ฉ all-MiniLM-L6-v2, multimodal์ฉ GME-Qwen2-VL-7B-Instruct, ๊ธฐ๋ณธ top-K=5
- ํ๊ฐ: GPT-4o-mini LLM-as-Judge (0/0.25/0.5/0.75/1 rubric, 200-sample human agreement Cohenโs $\kappa = 0.84$) + lexical metric (Precision/Recall/F1/BLEU-1)
- ๋ฉ๋ชจ๋ฆฌ ๋ฐฉ๋ฒ 6์ข
์ ๋ ๊ณ์ด๋ก ๋น๊ต
- Results
- ์ ๋ฐ์ ์ผ๋ก ๋ฎ์ ์ฑ๋ฅ: ์ต๊ณ ๊ฐ A-Mem์ weighted average 0.5757 (
Tab 3); backbone์ ๋ฐ๊ฟ๋ 0.6์ ๋๋ ๋ฐฉ๋ฒ ์์ Tab 3,4- cross-modal alignment: UPR ๋๋น CRR์ด ์ผ๊ด๋๊ฒ ๋ฎ์
- MuRAG ๊ธฐ์ค 0.6346 โ 0.5326, lexical recall๋ 0.4063 โ 0.3120
- distractor filtering ์ฝํจ: recall์ ๋์ผ๋ precision์ด ๋ฎ์
- A-Mem recall 0.4215 vs precision 0.2206: ๊ด๋ จ history๋ ์ฐพ์ง๋ง multi-participant noise๋ฅผ ๊ฑฐ๋ฅด์ง ๋ชปํจ
- reasoning task ์ต์ ์ : MCR, RET๊ฐ ๋ชจ๋ ๋ฐฉ๋ฒ์์ ๊ฐ์ฅ ๋ฎ๊ณ , BLEU-1 near-zero
- ๋ถ์ฐ๋ ์ฆ๊ฑฐ๋ฅผ ์๋ ์ ํํ factual phrasing์ ์ฌํํ์ง ๋ชปํ๋ฉฐ, ์ธ๊ฐ์ implicit reference ๊ดํ์ ์ทจ์ฝ
- conflict ์ฒ๋ฆฌ ๋ถ๊ดด: CD๊ฐ lexical ๊ธฐ์ค near-zero (A-Mem CD recall 0.0869)
- cross-modal alignment: UPR ๋๋น CRR์ด ์ผ๊ด๋๊ฒ ๋ฎ์
- interaction ๊ตฌ์กฐ ํจ๊ณผ: dyadic vs multi-party๊ฐ task๋ณ๋ก ์ญ์ (
Tab 3)- ์ผ๊ด์ฑ ์งํฅ task (KR, CD)๋ ๋ค์ค ํ์์ ์์ถฉ ์ ํธ๋ก multi-party์์ ๊ธ๋ฝ
- NaiveRAG KR 0.4896 (dyadic) โ 0.2500 (multi-party)
- ์ง์ค๋ ๋งฅ๋ฝ์ด ์ ๋ฆฌํ task (CRR, TTL)๋ multi-party์์ ๋น์ทํ๊ฑฐ๋ ๋ ๋์
Tab 10, 113B โ 7B scaling์ผ๋ก๋ ์ด gap์ด ํด์๋์ง ์์- CRR, MCR, CD์ ๊ฐ์ ํญ ์ต์
- ์ผ๊ด์ฑ ์งํฅ task (KR, CD)๋ ๋ค์ค ํ์์ ์์ถฉ ์ ํธ๋ก multi-party์์ ๊ธ๋ฝ
Tab 5ํจ์จ trade-off: storage์ inference latency์ ๋ช ํํ ๊ตํ ๊ด๊ณ- full memory ๊ณ์ด: ์ ์ฅ ๋น์ฉ ์ต์์ด๋ latency ํผ (Full Text 17.99 s/q, Full MM 26.09 s/q)
- A-Mem: latency 4.57 s/q๋ก ๋น ๋ฅด์ง๋ง ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์ถ์ 351.08 s/session
Tab 6error ๋ถ์: ์คํจ 100๊ฑด ์๋ ๋ถ๋ฅ ๊ฒฐ๊ณผ ๋ archetype์ ์ง์ค- modal misalignment 44~46%: ํ ์คํธ๋ฅผ visual evidence์ groundingํ์ง ๋ชปํจ
- speaker-related error 32~35%: ํ์ ์ค๊ท์, ์ธ๊ฐ referential ๊ดํ ์ถ์ ์คํจ
Fig 4case study: recipe ์ด๋ฏธ์ง์ ์ฌ๋ฃ ์๋ณ์์ ์ด๋ฏธ์ง ๋ฌด์(NGM)์ ํ์ ์ค๊ท์(Full MM), ๋ฉ๋ด ๊ธฐ๋ฐ ๊ฒฐ๋ก ์ถ๋ก ์์ ๊ฒฐ๋ก ์ ํ์ ์ค๊ท์(NGM)์ด ๊ทธ๋๋ก ์ฌํ
- retriever top-K ๋ถ์ (
Tab 14): K ์ฆ๊ฐ๊ฐ ๋น๋จ์กฐ์ ํจ๊ณผ- A-Mem, NGM์ K=15์์ ์ ์ ํ ํ๋ฝ; MuRAG๋ K=10 ์ ์ โ recall ํฅ์๊ณผ noise ๋์ ์ trade-off <!โ
- ์ ๋ฐ์ ์ผ๋ก ๋ฎ์ ์ฑ๋ฅ: ์ต๊ณ ๊ฐ A-Mem์ weighted average 0.5757 (
- Limitations
- ๋ํ์ QA๊ฐ ๋ชจ๋ LLM-generated (DeepSeek-V3): ํฉ์ฑ ๋ถํฌ๊ฐ ์ค์ human-human ๋ํ์ discourse ํน์ฑ์ ์ผ๋ง๋ ๋ณด์กดํ๋์ง ๋ฏธ๊ฒ์ฆ
- ์์ฑ๊ณผ ํ๊ฐ์ ์ํ: ๋ํ ์์ฑ, caption, QA ์์ฑ, judge๊ฐ ์ ๋ถ LLM์ด๊ณ human ๊ฒ์ฆ์ ์ฌํ filter ์์ค
- multi-party ํ๋ณธ ๋น์ฝ: 5 dialogues, 190 QA๋ก multi-party ๊ฒฐ๊ณผ์ ๋ถ์ฐ์ด ํผ (AR 1.0000 ๊ฐ์ ํฌํ ์์น)
- task ๋ถ๊ท ํ: ํต์ฌ ์ฃผ์ฅ์ ์ฐ์ด๋ KR, TR์ด ๊ฐ 2% ์์ค
- CD๋ฅผ lexical metric์ผ๋ก ์ธก์ ํ๋ ๊ฒ์ binary task์ metric์ mismatch
- text-based ๋ฐฉ๋ฒ์ GPT-4o caption์ ์ ๊ณตํ๋ ์ค๊ณ๋ caption์ ์ ๋ณด ์ฐ์์ raw image ์ฒ๋ฆฌ ๋์ด๋๋ฅผ ๋ถ๋ฆฌํ์ง ๋ชปํจ
- ์์ด single-language, ์ต๋ 1๋ time span์ผ๋ก ์ ํ โ>
Personal note. ์ ์ ๊ต์๋๊ป ์ธ๊ธ๋ง ๋๋ ธ๋,, ๋ํ ๋ฐ์ ์กด์ฌํ๋ agent๋ฅผ observer๋ก ํ์ฌ ์ด observer์ ๊ด์ ์์ memory์ ๋ํด ๋ ผ์ํ๊ณ ์์ต๋๋ค. ๋ฒค์น๋งํฌ ๋ ผ๋ฌธ์ผ๋ก์ multimodal ๊ณผ multi-party matrix ๋ ๊น๋ํ ์ฑ์ ๊ณ , task ๋์ด๋๊ฐ interaction ๊ตฌ์กฐ์ ๋ฐ๋ผ ์ญ์ ๋จ์ ๋ณด์ธ ๊ฒ ์ข์๋ณด์ ๋๋ค. ์ฃผ์ ์คํจ์ค์ speaker๋ฅผ ์ ๋ชป๋ง์ถ๋ค๋ ๊ฑด ๋๊ฒ ๊ณ ์ task ๊ฐ๊ธด ํ๋ฐ ์ฌ์ ํ ๋ฌธ์ ๋ผ๊ณ ๋ ํ๋๊ฒ ํด๋์์ ์์ํ๊ฐ ์ถ๊ณ ์.