6 minute read

Meta info.
  • Authors: Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong
  • Paper: https://arxiv.org/abs/2604.08064
  • Code/Data: ImplicitMemBench
  • Affiliation: The University of Hong Kong, Harbin Institute of Technology
  • Published: April 9, 2026 (arXiv preprint, venue 미정)

TL; DR

LLM agent의 explicit recall이 아닌 implicit memory (자동화된 행동 적응..?)를 평가하는 최초의 benchmark를 제안하고, 17개 모델 모두 인간 baseline에 크게 못 미침을 실증

Slide 7 ImplicitMemBench Overview Figure 1: Overall Framework Figure 2: Model Ranking Figure 3: Dataset Statistics Figure 4: Behavioral Asymmetry Figure 5: Surface-Deep Dissociation and Worst-case Robustness Figure 6: Model Capability Profiles Figure 6: Model profiles and trade-offs

Background

  • 기존 memory benchmark들은 전부 explicit memory 평가 중심: agent에게 직접/명시적으로 “이거 기억하냐”는 식의 질의 active retrieval trigger
    • LoCoMo, LongMemEval, MemBench, MemoryAgentBench, MEMTRACK, GoodAI LTM 등
    • QA format, emotion-cued retrieval, 명시적 task instruction 등 다양하지만 결국 conscious recall 평가
    • context scale은 400 tokens ~ 1.5M tokens까지 다양하게 존재
  • 반면 implicit memory는 인지과학에서 오래전부터 확립된 개념
    • non-declarative memory의 taxonomy (Squire, 2004) 기반
    • 경험이 의식적 회상 없이 자동화된 행동으로 전환되는 현상
    • 인간의 경우 자전거 타기, 습관적 반응 등
  • LLM agent 관점에서도 implicit memory는 critical
    • “이 API는 실패한다”는 것을 명시적 reminder 없이도 회피해야 함
    • 새로운 workflow를 instruction 없이도 자동으로 적용해야 함
    • contextual cue에 무의식적으로 반응하는 thematic adaptation이 필요

Problem States

explicit recall은 잘 평가되고 있지만, 경험이 자동화된 행동으로 굳어지는 과정(implicit memory formation)은 기존 benchmark가 전혀 진단하지 못한다.

  • 기존 benchmark 구조적 한계: “what agents recall”만 알 수 있고, “agent가 무의식적으로 뭘 하는가(what they automatically enact)”는 알 수 없음
    • QA format이 target 정보를 명시적으로 cue해 줌 → recall 능력만 측정
    • storage capacity 스트레스 중심 → first-attempt behavioral trigger 평가 불가
    • heavy pipeline으로 재현성 낮음

Suggestions

  • 저자들은 implicit memory를 Procedural Memory, Priming, Classical Conditioning 세 가지로 분류해서 각각 따로 평가
    • 인지과학의 non-declarative memory taxonomy에서 가져온 구분

#1 공통 프로토콜: Learning–Interference–Test

  • 세 paradigm 모두 동일한 3단계 구조
    • Learning: 모델에게 새로운 rule이나 패턴을 짧게 보여줌
    • → Interference: 전혀 다른 내용으로 방해; 학습한 내용을 밀어내기 위함
      • 방해 없이 바로 테스트하면 그냥 recall 측정
      • 방해를 거친 후에도 첫 응답에서 자동으로 나오는지를 봐야 implicit memory를 측정할 수 있다는 논리
      • 다만 LLM에서 context 내 몇 턴짜리 텍스트 방해가 실제로 인간 실험에서의 interference와 같은 효과를 내는지는 검증 없음
    • → Test: 방해 이후 첫 번째 응답만 채점, self-correction 무효
      • First-Try Accuracy (FTA): 이 첫 응답만 보는 메트릭. Procedural Memory, Classical Conditioning에 적용
\[\text{FTA} = \frac{\text{Number of correct first attempts}}{\text{Total test items}} \times 100\%\]

#2 세 가지 Paradigm

Procedural Memory: 새 규칙을 배워서 적용하는가

  • LLM은 declarative knowledge는 뛰어나지만, 새로운 rule이 pre-training 패턴과 충돌하면 훈련에서 본 익숙한 패턴으로 회귀하는 경향
    • e.g. copy_file(destination, source) 처럼 파라미터 순서가 평소와 반대인 규칙 제시할 때, 15턴 방해 후 여전히 반대 규칙의 순서로 쓸 수 있는가?
  • 5개 도메인: 각 도메인이 다른 종류의 interference
Domain Core Challenge Example Tasks
Tool & API Usage 기존 calling convention 억제 Reversed Parameters (dst→src), Session Prefix
Linguistic Formats 임의 template 내면화 Scribe’s Signature, Corporate Etiquette
Logical Operations 비표준 operator 적용 Omega: a Ω b = 2a + b/2, Modified Fibonacci
Abstract Rules micro-world 습관 형성 Forbidden Square, Triple Knock
Creative Constraints reminder 없이 스타일 유지 Voice Consistency, Botanical Similes
  • CDS (Contextual Difficulty Score) 로 난이도 정량화
    • CDS = (IR + GD) / 2
    • IR (Interference Ratio): interference 구간이 전체 토큰에서 차지하는 비율
    • GD (Generalization Distance): learning phase 내용과 test probe 내용의 코사인 유사도 기반 거리

Priming: 이전에 읽은 내용의 분위기가 이후 창작(?)에 무의식적으로 배어드는가

  • matched pair 구조: interference와 test probe는 두 조건이 완전 동일, priming phase만 다름
    • Experimental 조건: 화산 폭발, 심해 같은 감각적인 테마 단락 read
    • Control 조건: ISO 규격 문서 같은 중립적 기술 문서 read
    • 이후 두 조건 모두 동일한 방해 → 동일한 테스트 (“압축 라이브러리 코드명 3개 지어봐”)
    • 두 응답의 차이를 priming effect로 간주
  • PIS (Priming Influence Score): 이 영향의 크기를 수치화, 0~100 연속값
    • LLM-as-Judge(GPT-4o-mini)가 두 조건 응답을 비교하여 채점
    • setting/motifs/dynamics/affect 4개 축에서 테마가 얼마나 스며들었는지를 봄
    • generic metaphor (“transformation”, “growth” 등)는 증거로 인정 않고
    • hard cap 적용: lexical echo 없으면 ≤20, 2개 미만 축 매칭이면 ≤40
  • 설계상 짚을 점
    • control 조건이 밀도나 텍스트 복잡도 자체가 experimental과 상이하므로 priming 외 confound가 완전히 통제됐다고 보기는 어려울듯
    • PIS 자체가 LLM-as-judge에 전적으로 의존: judge 모델도 동일한 pre-training bias를 공유하므로 circular evaluation 문제

Classical Conditioning: 반복 실패 경험으로부터 자동 회피 반응을 형성하는가

  • CS(조건 자극)–US(무조건 자극) pairing 구조: 특정 키워드(CS)가 나올 때마다 실패(US)가 반복되면, 나중에 CS만 봐도 자동으로 회피하는 CR(조건 반응)이 형성되는가
    • e.g. “run diagnostics”가 나올 때마다 analyzer_v1이 실패 (4~5회 반복) → 무관한 대화 2~3턴 → “database diagnostics 해줘” → analyzer_v1을 안 쓰거나 경고를 먼저 내는가?
    • Procedural은 명시적으로 가르쳐준 규칙을 적용하는 것 vs. Classical Conditioning은 부정적 피드백의 반복으로부터 스스로 회피 패턴을 형성하는 것 (결과에서 이 두 paradigm 성능이 크게 벌어지는 것으로 구분 가능함을 주장)
    • “경고를 내는 것”도 pass, “대안 API를 쓰는 것”도 pass로 처리하는게 진짜 conditioning인지 아니면 context에 남아있는 실패 기록을 보고 따라가는 in-context instruction following인지 구분 불명확
  • 3개 도메인으로 구성
Domain CS Learned Response (CR)
Tool & API Safety trigger keyword, API name 대안 API 선택, 경고 추가
Conversational Adaptation user confusion/impatience 신호 전문용어 단순화, 간결한 응답
System Protection forbidden path, insecure protocol safe default 사용
  • ARCS (Association Rule Complexity Score) 로 측정
    • Easy 기준 (ARCS < 0.15): 단일 CS, deterministic US (항상 실패), 즉각 temporal delay (바로 다음 턴에 에러), pairing 횟수 많음
    • 조건이 복합적이거나 실패가 확률적이거나 시간 간격이 길수록 어려워짐

#3 데이터 생성 및 평가 프레임워크

  • 데이터 생성
    • Stage 1: GPT-4o-mini로 task template에서 concrete dialogue 생성
    • Stage 2: 자동 검증 (구조 체크, semantic 체크) + human review
    • 1,000개 이상 후보 → 300개 최종 선별, 18개 task family, paradigm당 100개 균등 배분
  • 정답이 명확한 것과 그렇지 않은 것의 성격이 다르기 때문에 패러다임마다 평가방식 상이
    • Procedural Memory: rule-based 검증 + LLM-as-judge 혼합
    • Priming: LLM-as-judge only (PIS): 테마 영향의 정도는 패턴으로 잡기 어려움
    • Classical Conditioning: LLM-as-judge only (FTA): 회피 행동의 형태가 다양함
  • judge robustness: GPT-4o-mini + Gemini-2.5-Flash 두 judge로 재평가 → 상위 11개, 하위 2개 순위 완전 동일. 다만 두 judge가 pre-training 분포를 공유한다는 점에서 완전한 독립 검증으로 보기는 어려움
  • context length sensitivity: ~500 tokens에서 이미 충분한 난이도 확보, 이후 plateau → ~500 tokens 채택

Effects

  • Experimental setup
    • GPT-4o, GPT-5, Claude-4.1-opus, Gemini-2.5-pro, DeepSeek-R1, Qwen3-32B, LLaMA-3.3-70B 등 17개 모델
    • zero-shot, 모델별 동일 조건, max 4096 tokens
    • Procedural/Conditioning: T=0 (deterministic), Priming test phase: T=0.8
    • Human baseline: CS PhD 학생 5명이 동일 프로토콜로 수행, 별도 2명이 채점 → inter-annotator agreement 100%, 전원 100% 정확도
  • Results
    • Tab 7 Fig 2 전반적 성능
      • 17개 모델 평균 55.3%, 어떤 모델도 66% 초과 불가 (human 100% 대비 huge gap)
      • 상위 3: DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), GPT-5 (63.0%)
      • 모델 4개 tier로 분류 (Elite >63% / Strong 55~63% / Moderate 45~55% / Limited <45%)
    • Paradigm 비대칭성
      • Procedural Memory: 가장 tractable. 상위 모델 8개가 >70% 달성 (top: 76~77%)
      • Classical Conditioning: critical bottleneck. DeepSeek-R1, Qwen3-32B만 65% 초과
      • Priming: 42~52% 좁은 범위에 군집, 모델 간 차별성 적음
    • Fig 5 Fig 6 Cross-paradigm dissociation
      • Claude-4.1-opus: Procedural 76.67% (최고) → Classical Conditioning 41.67% (35점 차이)
      • 한 paradigm 우수하다고 다른 paradigm 우수한 것은 아님 (각 메커니즘의 독립성 주장)
      • DeepSeek-R1이 세 paradigm 모두 균형 있게 높음
    • Fig4 a Inhibition vs. Preference 비대칭
      • Inhibition tasks 평균 17.6% vs. Preference tasks 평균 75.0%
      • 57.4점 차이, 모든 아키텍처에서 일관 (p<0.001)
      • LLM이 positive reinforcement에는 강하지만 negative reinforcement에는 취약한 구조적 한계
    • Fig4 b Universal bottleneck: 5개 카테고리가 모든 모델에서 공통적으로 어려움
      • jargon avoidance (4%), API distrust (21%), context-dependent behavior (28%), API aversion (45%), emotion-driven strategy shift (55%)
    • Fig5 a Surface-Deep dissociation: 개별 rule 암기는 되지만 여러 rule 동시 통합은 실패
      • Surface formatting: 상위 5개 모델 평균 93.8%
      • Deep multi-rule protocols: 60.0% (33.8점 차)
    • Tab 13 Explicit memory augmentation의 한계: implicit memory는 explicit storage + retrieval로 환원 불가
      • 기존 메모리 메서드의 비일관적 개선성: MemAgent (+3.9), MemGPT (+2.3), MEM1 (-2.1)
      • Oracle 조건(핵심 정보를 perfect하게 저장)에서도 paradigm별 편차 극심

Personal note. implicit memory라는 용어 자체에 약간 거부감이 들긴 하는데.. Inhibition task 평균 17.6%는 꽤 인상적인 숫자이고, behavioral adaptation을 first-attempt scoring으로 측정한다는 프로토콜 설계는 깔끔해 보이기는 하는데.. 논문의 novelty claim은 곧이곧대로 받아들이기는 곤란하다고 느낍니다. 기존 memory 평가가 recall 중심이다는 비판은 이미 최근 이 분야의 상투적인 motivation이 됐다고 보고요, 지난 MemoryArena도 같은 문제를 지적하기도 했고, 저희 연구도 사실 마찬가지의 클레임을 걸고 있습니다. 여러 연구가 retrieval / summarization 기반 memory의 한계를 이미 action 수준에서 짚고 있기 때문에 주장 자체가 그렇게 최초 ! 타이틀을 부각시키기는 다소 어려워보이긴 하고요.. 다만 인지과학의 non-declarative memory taxonomy를 benchmark 설계 원칙으로 가져온 것(있어빌리티 측면은 보장하겠지만 퍽 노벨하다고 느껴지지는 않음,, 그치만 그 자체가 의의라면 의의라고 납득 가능), 그리고 그걸 세 개의 구체적 construct로 분리해 측정했다는 점 정도로 보는 게 맞겠습니다. 대체로 있는 이야기들을 잘 프레이밍한건데 그 자체도 오버클레임은 아니었을지 살짝 의심스럽습니다.