Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
- Authors: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun
- Paper: https://www.arxiv.org/pdf/2510.04618
- Affiliation: SambaNova Systems Inc., Stanford Univ., UC Berkeley
- Published: October 6, 2025
TL; DR
generation > reflection > curation ๋ชจ๋์ ๊ฑฐ์ณ incremental delta updates๋ง ๋ฐ์ํ๋ prompt refinement framework ACE ์ ์

Background
- ๋ชจ๋ธ์ด ์ปค์ง๋ฉด์ finetuning์ ๋นํจ์จ์ ์ธ ๋ฐ๋ฉด context engineering ์ด ๋ณด๋ค ์ฝ๊ณ ์ง๊ด์ ์ด๋ผ๋ ์ดํด
- context adaptation: ๋ชจ๋ธ์ ๊ทธ๋ฅ ๋๊ณ ๋ context๋ง ์ ๊ฐ๊ฟ์ฃผ๋ฉด ์ฑ๋ฅ ํฌ๊ฒ ํฅ์
- system prompt: ๋ชจ๋ธ์ ์ญํ , ํ๋ ์ ์
- memory: ๊ณผ๊ฑฐ ๊ฒฝํ ์์ฝ, ๋ค์ ์์ ์ ํ์ฉ
- retrieval augmentation: ์ธ๋ถ ์ง์ ํ์ฉ reasoning
- context adaptation: ๋ชจ๋ธ์ ๊ทธ๋ฅ ๋๊ณ ๋ context๋ง ์ ๊ฐ๊ฟ์ฃผ๋ฉด ์ฑ๋ฅ ํฌ๊ฒ ํฅ์
- ๋ฌธ์ ๋ context engineering ๊ณผ์ ์์ ์ง๋์น ๊ฐ๊ฒฐํ ๋ฐ context๋ฅผ ์๊ฒ ๋๋ ๋ฐฉํฅ์ผ๋ก prompt๊ฐ ์ ๋ฐ์ดํธ ๋จ
Problem States
LLM์ context ์งํ ๊ณผ์ ์ด ๋ถ๊ดดํ๊ธฐ ์ฝ๊ณ ์ ์ง๊ฐ ๋นํจ์จ์
- ์ง์์ ์ถ์ํ๊ฑฐ๋ ๋๋ฉ์ธ์ ํ๋ถํจ์ ์์ง ์์ผ๋ฉด์ + ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ context๋ฅผ adapt์ํฌ ์ ์์๊น?
๋นํจ์จ์ฑ- nl feedback์ (reflexion, textgrad, gepa ๋ฑ) ์ ๋จ์ prompt ์์ฝ์ ๊ทธ์น์ง ์์๋
- ์คํ๋ ค ํ๋ถํ ๋๋ฉ์ธ ์ ๋ต/์์ ๋ฑ์ Flow๊ฐ ํ๊ดด๋จ
- pipeline ์ค๊ณ ์ธก๋ฉด์์๋ ์ prompt๊ฐ ์ ๊ทธ๋ ๊ฒ ๋๊ฑด์ง ํด์ ๊ฐ๋ฅ์ฑ์ด ๋ฎ๊ณ ์ด๋ prompt ์งํ๋ณด๋ค๋ ๋๋คํ๊ฒ ๋ฐ๋๊ฒ ์๋๊ฐ
context ๋ถ๊ดด; knowledge-richย ยป> summary-only- prompt๋ฅผ ์์ ํ ์ฌ์์ฑ(๋์ฒด)ํ๋ ๋ฐฉ์์ด ์ผ๋ฐ์
- iteration์ ๋ฐ๋ณตํ ์๋ก ์ง์์ด ์ฌ๋ผ์ง๋ ํ์
- preliminary experiment: (AppWorld) 18,282-token prompt๊ฐ 1ํ์ LLM rewrite๋ก 122-token์ผ๋ก ๊ฐ์์ ์ ํ๋๋ 66.7% โ 57.1%๋ก ๊ธ๋ฝ
- ์ด๋ context์๋ baseline ๋ณด๋ค ๋ฎ์ ์ฑ๋ฅ (63.7%)
Suggestions
ACE
- ์์: generator๊ฐ ์ด๋ค reasoning trajectory ์์ฑ โ reflector๊ฐ lesson ๋์ถ โ curator๊ฐ lesson์ bullet์ผ๋ก ํตํฉ == playbook ๊ตฌ์ถ
- bullet: context๋ฅผ bullet ๋จ์์ ๋ชจ๋ํ playbook์ผ๋ก ์ฌ๊ตฌ์ฑ. context์ ์ต์๋จ์
{ id, text, helpful_count, harmful_count, last_update_epoch, origin }- id : bullet ์๋ณ์
- text : ์ค์ ๋ด์ฉ (rule, strategy, concept, โฆ)
- helpful/harmful_count : ์ฑ๊ณต/์คํจ์์ ์ฐธ์กฐ๋ ํ์
- last_update_epoch : ์ต์ข ๊ฐฑ์ ์์
- origin : reflector / curator ์ธ๋ ์ ๋ณด <- ์ด๋ค ๊ฒฝํ์์ ๋ฐฐ์๋์ง ์ถ์ ๊ฐ๋ฅ
- incremental delta updates; ์๋ก์ด delta bullet์ ์ถ๊ฐํ๊ณ , ์ถฉ๋ ์ ๋ณํฉ
v_{t+1} = v_t \oplus \delta v_t: ์ด์ context ์ ์งํ๋ฉด์ ์๋ก์ด ๋ด์ฉ๋ง ์ฆ๋ถ์ผ๋ก ๋ฐ์- generator์ trace๋ฅผ ๋ณด๊ณ ์ด๋ค bullet์ด ์ ์ตํ๊ณ ์ด๋ค ๋ถ๋ถ์ด ๋ถ์กฑํ์ง ํ์ธ (์์ฐ์ด)
- grow-and-refine loop (curator ์ญํ )
- grow: ์ bullet ์ถ๊ฐ <- embedding similarity ํ์ฉ
- refine: ์ค๋ณต bullet ํตํฉ, ์ค๋๋/ํจ์จ ๋ฎ์ bullet ์ ๊ฑฐ <- llm call
- reflector // curator role ๊ตฌ๋ถ
- reflector: llm์ด reasoningํ์ฌ lesson ์ ์
- curator: lesson ๊ฒ์ฆ, ๋ณํฉ (non-llm) <- ๊ตฌ์กฐ์ ์์ ์ฑ ๋ณด์ฅ
- lesson์ bulletํ๋ณด๋ก parsingํ๊ณ
- \deta v_t ์์ฑ: ์๋ก์ด ๋ถ๋ถ๋ง ํฌํจ
- grow-and-refine ์ํ
- metadata ์
๋ฐ์ดํธ :
helpful_count, harmful_count, ...
Effects
- baselines
- backbone: deepseek-v3.1-instruct (no thinking)
- reAct (memory + system prompt) ๊ตฌ์กฐ ๊ธฐ๋ฐ
- no context, ICL (fs)
- mipro v2, gepa, dc(dynamic cheatsheet)
- ACE (์ ์๋ฐฉ๋ฒ) offline / online
- offline : playbook ํ์ฉ (pretrained) > ์ task์์ ์ ๋ฐ์ดํธ ์์. (ํ์ต์๋ง ์ ์ฉ. prompt pretraining)
- online : ์คํ์ค reflector + curator๊ฐ ๊ณ์ update (inference-time continual learning)
- backbone: deepseek-v3.1-instruct (no thinking)
- ๊ณตํต์ ์ผ๋ก multi-turn ์ผ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ benchmark ์ฌ์ฉ(AppWorld, FiNER, Formula ๋ฑ)
Fig1Tab1AppWorld: ๊ฐ์์ tool ํ์ฉ ํ๊ฒฝ์์์ reasoning benchmark, tool call + observation reasoning + feedback loop- ํ๊ท 10pp ์ด์ ์ฑ๋ฅ ํฅ์, ํนํ test challenge split์์ gpt-4.1 ๊ธฐ๋ฐ์ IBM CUGA๋ณด๋ค ๋์ ์ฑ๋ฅ
- online ACE ๋ label ์์ด execution feedback ์ผ๋ก๋ง ํ์ต ๊ฐ๋ฅ
- context ๊ธธ์ด๊ฐ ์ ์ง๋์ง๋ง collapse๋ ์๋ค๋ ์๋ฏธ
Tab2FiNER (financial reasoning task) , Formula(numerical reasoning) ๋ฑ reasoning task์์ ์ฐ์ํ ์ฑ๋ฅTab4curator๊ฐ non-llm์ด๋ผ ์๋ ์ต๋ 10๋ฐฐ ๊ฐ๊น์ด ๊ฐ์Tab3๋ชจ๋ component๊ฐ ์ค์ ๊ธฐ์ฌํ๋ค๊ณ ๋ด- ์ ์ฑํ๊ฐ ๊ฒฐ๊ณผ
- reflector๊ฐ ์์ฑํ๋ lesson์ด ๋์ด๋ ์๋ก context ๊ธธ์ด๋ ์ค์ ์ฆ๊ฐํ๊ณ
- collapse๊ฐ ์๋ค๊ณ ์ฃผ์ฅ (๊ธธ์ด ์ ์ง)
- ์ฌ๋์ด ๋ดค์ ๋ playbook์ด ๊ฐ์๋ก domain specificํ๋ค๊ณ ๊ด์ฐฐ
Personal note. ์ฐํด ๊ฐ ์ฃผ๋ชฉ๋ฐ์ ํ์ดํผ์ค ํ๋์๋ค๊ณ ์๊ฐํ๋๋ฐ, ์ ์ํ delta incremental update๊ฐ ๊ฒฐ๊ตญ self-critic์ผ๋ก ์ ๋ฐ์ดํธ ํ ๋งํ๊ณ (=ํ์ํ๊ณ ) ์ ์ตํ๋ค๊ณ ํ๋จํ ๊ฒ๋ง ๋ชจ์ memory๋ผ๋ ์ธ์์ด์์ต๋๋ค, ๋ฌผ๋ก reasoning task์ด๊ธด ํ์ง๋ง turn์ด ์ง๋ ์๋ก memory๋ฅผ ๋ช ์์ ์ผ๋ก prompt ๋ด์์ ๊ด๋ฆฌํ๋ ๋ฐฉ๋ฒ๋ก ์ค ํ๋๋ก ์ดํดํ์ต๋๋ค. ํด๋น memory๋ฅผ ๊ตฌ์ถํ๋ ๋ฐฉ์์ ๋จ์ํ์ง๋ง,, Ground Truth ์์ด๋ reflection์ ๊ฐ๋ฅํ๋, online์์ ํผ์ ์ด์ฌํ ์ถ๋ก ํ๊ณ ๊ฒฐ๊ณผ ์ ๋ฐ์ดํธ ์ณค์๋ ์ฑ๋ฅ์ด ์ ์ตํ๊ฒ ๊ฐ์ ๋๋ค๋ ๋ฐฉํฅ์์ ์๋ฏธ๊ฐ ์์ด๋ณด์ ๋๋ค. ์ ์ด์ ์ ๋ต์ด ์๋ dialogue ์ํฉ์์ memory ๊ด๋ฆฌ ์ธก๋ฉด์ผ๋ก ์ฐธ๊ณ ํ ์ ์์์ง ๊ณ ๋ฏผํด๋ณด๊ฒ ์ต๋๋ค.