Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

October 13, 2025 3 minute read

Meta info.

Authors: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun
Paper: https://www.arxiv.org/pdf/2510.04618
Affiliation: SambaNova Systems Inc., Stanford Univ., UC Berkeley
Published: October 6, 2025

TL; DR

generation > reflection > curation 모듈을 거쳐 incremental delta updates만 반영하는 prompt refinement framework ACE 제안

Background

모델이 커지면서 finetuning은 비효율적인 반면 context engineering 이 보다 쉽고 직관적이라는 이해
- context adaptation: 모델을 그냥 두고도 context만 잘 가꿔주면 성능 크게 향상
  - system prompt: 모델의 역할, 태도 정의
  - memory: 과거 경험 요약, 다음 작업에 활용
  - retrieval augmentation: 외부 지식 활용 reasoning
문제는 context engineering 과정에서 지나친 간결화 및 context를 잃게 되는 방향으로 prompt가 업데이트 됨

Problem States

LLM의 context 진화 과정이 붕괴하기 쉽고 유지가 비효율적

지식을 축소하거나 도메인의 풍부함을 잃지 않으면서 + 시간의 흐름에 따라 context를 adapt시킬 수 있을까?
비효율성
- nl feedback은 (reflexion, textgrad, gepa 등) 은 단순 prompt 요약에 그치지 않았나
- 오히려 풍부한 도메인 전략/예시 등의 Flow가 파괴됨
- pipeline 설계 측면에서도 새 prompt가 왜 그렇게 된건지 해석 가능성이 낮고 이는 prompt 진화보다는 랜덤하게 바뀐게 아닌가
context 붕괴; knowledge-rich »> summary-only
- prompt를 완전히 재작성(대체)하는 방식이 일반적
- iteration을 반복할수록 지식이 사라지는 현상
- preliminary experiment: (AppWorld) 18,282-token prompt가 1회의 LLM rewrite로 122-token으로 감소시 정확도는 66.7% → 57.1%로 급락
  - 이는 context없는 baseline 보다 낮은 성능 (63.7%)

Suggestions

ACE

순서: generator가 어떤 reasoning trajectory 생성 → reflector가 lesson 도출 → curator가 lesson을 bullet으로 통합 == playbook 구축
bullet: context를 bullet 단위의 모듈형 playbook으로 재구성. context의 최소단위
- { id, text, helpful_count, harmful_count, last_update_epoch, origin }
  - id : bullet 식별자
  - text : 실제 내용 (rule, strategy, concept, …)
  - helpful/harmful_count : 성공/실패에서 참조된 횟수
  - last_update_epoch : 최종 갱신 시점
  - origin : reflector / curator 세대 정보 <- 어떤 경험에서 배웟는지 추적 가능
incremental delta updates; 새로운 delta bullet을 추가하고, 충돌 시 병합
- v_{t+1} = v_t \oplus \delta v_t: 이전 context 유지하면서 새로운 내용만 증분으로 반영
- generator의 trace를 보고 어떤 bullet이 유익하고 어떤 부분이 부족한지 확인 (자연어)
grow-and-refine loop (curator 역할)
- grow: 새 bullet 추가 <- embedding similarity 활용
- refine: 중복 bullet 통합, 오래된/효율 낮은 bullet 제거 <- llm call
reflector // curator role 구분
- reflector: llm이 reasoning하여 lesson 제안
- curator: lesson 검증, 병합 (non-llm) <- 구조적 안정성 보장
  1. lesson을 bullet후보로 parsing하고
  2. \deta v_t 생성: 새로운 부분만 포함
  3. grow-and-refine 수행
  4. metadata 업데이트 : helpful_count, harmful_count, ...

Effects

baselines
- backbone: deepseek-v3.1-instruct (no thinking)
  - reAct (memory + system prompt) 구조 기반
- no context, ICL (fs)
- mipro v2, gepa, dc(dynamic cheatsheet)
- ACE (제안방법) offline / online
  - offline : playbook 활용 (pretrained) > 새 task에서 업데이트 없음. (학습에만 적용. prompt pretraining)
  - online : 실행중 reflector + curator가 계속 update (inference-time continual learning)
공통적으로 multi-turn 으로 문제를 해결하는 benchmark 사용(AppWorld, FiNER, Formula 등)
Fig1 Tab1 AppWorld: 가상의 tool 활용 환경에서의 reasoning benchmark, tool call + observation reasoning + feedback loop
- 평균 10pp 이상 성능 향상, 특히 test challenge split에서 gpt-4.1 기반의 IBM CUGA보다 높은 성능
- online ACE 는 label 없이 execution feedback 으로만 학습 가능
- context 길이가 유지되지만 collapse는 없다는 의미
Tab2 FiNER (financial reasoning task) , Formula(numerical reasoning) 등 reasoning task에서 우수한 성능
Tab4 curator가 non-llm이라 속도 최대 10배 가까이 개선
Tab3 모든 component가 실제 기여한다고 봄
정성평가 결과
- reflector가 생성하는 lesson이 늘어날수록 context 길이는 실제 증가했고
- collapse가 없다고 주장 (길이 유지)
- 사람이 봤을 때 playbook이 갈수록 domain specific하다고 관찰

Personal note. 연휴 간 주목받은 페이퍼중 하나였다고 생각하는데, 제안한 delta incremental update가 결국 self-critic으로 업데이트 할만하고 (=필요하고) 유익하다고 판단한 것만 모은 memory라는 인상이었습니다, 물론 reasoning task이긴 하지만 turn이 지날수록 memory를 명시적으로 prompt 내에서 관리하는 방법론 중 하나로 이해했습니다. 해당 memory를 구축하는 방식은 단순하지만,, Ground Truth 없이도 reflection은 가능하니, online에서 혼자 열심히 추론하고 결과 업데이트 쳤을때 성능이 유익하게 개선된다는 방향에서 의미가 있어보입니다. 애초에 정답이 없는 dialogue 상황에서 memory 관리 측면으로 참고할 수 있을지 고민해보겠습니다.