Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents
Meta info.
- Authors: Yunfan Li, Bingbing Xu, Xueyun Tian, Xiucheng Xu, Huawei Shen
- Paper: https://arxiv.org/pdf/2601.07577
- Affiliation: UCAS
- Published: January 12, 2026
TL; DR
long-horizon task์์ ๋ฐ์ํ๋ planning ์คํจ์ ํต์ฌ ์์ธ์ entanglement๋ก ๊ท์ , ์ด๋ฅผ subtask ๋จ์๋ก ๋ถ๋ฆฌ๋ DAG ๊ธฐ๋ฐ planning์ผ๋ก ํด๊ฒฐํ๋ ๊ฒ์ ์ ์, ์ฑ๋ฅ ํฅ์ ๋ฐ ํ ํฐ ์ ๊ฐ์์ ์ ์
Review Video





Background
- ์ต๊ทผ LLM์ด reasoning๋ tool use๋ ์ ํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ด์ง๋ง, long-horizon task์์ ํ๊ณ
- step-wise planning: ReAct, ReCode
- environment ํผ๋๋ฐฑ์ ์ฆ๊ฐ ๋์์ด ๊ฐ๋ฅํ๋,
- ์ฅ๊ธฐ ๊ณผ์ ์์ ๊ทผ์์์ ๊ฒฐ์ ์ํ, ํ์คํ ๋ฆฌ ๋ฌดํ ํ์ฅ์ ๋ํ ํ๊ณ
- one-shot (plan-then-act): Plan-and-act, Pre-Act
- ์ ์ญ ์ ๋ณด ํ์ ์ด ๊ฐ๋ฅํ์ง๋ง ์ด๊ธฐ planning ์ค๋ฅ์ ์ทจ์ฝํ์ฌ ์ฌ๊ณํ ๋น์ฉ์ด ํผ
- step-wise planning: ReAct, ReCode
Problem States
LLM-based Agent๊ฐ long-horizon task์์ ์คํจํ๋๊ฑด Entangled planning ๋๋ฌธ์ด๋ผ๊ณ ์ฃผ์ฅ
- ์ฌ๋ฌ subtask์ ๋ํ thought, ์คํจ, ์ ๋ณด๊ฐ ํผํฉ๋ ๊ธด execution history์์ ์ถ๋ก (์ธ์ง ๋ถํ ์ฆ๊ฐ)
- ๊ทธ์ ๋ฐ๋ฅธ error propagation (๋ก์ปฌํ ์คํจ๊ฐ ๋ฌด๊ดํด๋ณด์ด๋ ๊ฒฐ์ ๊น์ง ์ํฅ)
- ๊ทธ๋ฌ๋ ๋ณต๊ตฌ์ ๋นํจ์จ์ฑ: ์์ธ๊ณผ ๋ฌด๊ดํ ๋ถ๋ถ๊น์ง ์ฌ๊ณํ
- ์ ํ์ฐ๊ตฌ ๊ณตํต์ : ๊ตฌ์กฐ์ ์ผ๋ก ์ฌ๋ฌ subtask์ ์ ๋ณด / ๊ฒฐ์ / ์คํจ๊ฐ ์์ธ ๋จ์ผ ์คํ history ์์์ ์ถ๋ก ํ๋ ๊ฒ์ด ๋ฌธ์
- ๋ฌธ์ ์ ๋ณธ์ง์ ๊ณํ์ ์ผ๋ง๋ ์ธ์ธํ ์ก๋๋ ๊ฐ์ ๊ฒ ์๋๋ผ,
- context entanglement์ ์ํ ์ค๋ฅ ์ ํ๋ฅผ ์ด๋ป๊ฒ ์ก๋๋ = ๋ชจ๋ธ์ ์ถ๋ก ๋ฒ์๋ฅผ ์ก์์ค์ผ ํ๋ค
Suggestions
Task-Decoupled Planning (TDP)
- ๋ช ์์ decoupling (=task๋ฅผ ๊ฐ๋ฅํํ ๋ถ๋ฆฌํ๋ฉด์) planning ํ์
- #1 Supervisor: ์ ์ฒด ๊ณผ์ ๋ฅผ Subtask๋ก ๋ถ๋ฆฌ > DAG(directed Acyclic Graph)๋ก ์ ๋ฆฌ
- node == 1๊ฐ์ sub-task
- edge == dependency
- #2 Planner: single node์ ๋ํด์๋ง ๊ณํ ์์ฑ, input์
Node-Scoped Context๋ก ์ ํNode-Scoped Context= {subtask ๋ช ์ธ + ์ ํ node=subtask ๊ฒฐ๊ณผ + ํด๋น ๋ ธ๋์ local execute ๊ธฐ๋ก}- ๋ค๋ฅธ subtask์ ๋ํ history๋ ๊ณผ๊ฑฐ ์คํจ ๋ก๊ทธ ๋ฑ ์ ์ธ
- #3 Executor: ๊ณํ์ ๋จ๊ณ์ ์คํ
- ์ ์ฒด ํ์คํ ๋ฆฌ๋ฅผ ๋ณด์ง ์๊ณ ํ์ฌ ๋ ธ๋ history๋ง ๋ณด๋, env. ์ ์ํธ์์ฉ ๋ด๋น
- #4-1 local revision: ์คํจ์ (ํ์ํ๋ค๋ฉด) ์ฌ๊ณํ์ ๋ ธ๋ ๋ด๋ถ์์๋ง ๋ฐ์๋๋๋ก (localized replanning)
- #4-2 global revision: ์ด๋ค ์คํจ๊ฐ DAG ๊ตฌ์กฐ ์์ฒด์ ์ค๋ฅ๋ฅผ ์๋ฏธํ๋ค๋ฉด ๊ทธ๋ Supervisor๊ฐ DAG ์์ (๋ ธ๋ ์ถ๊ฐ/์ ๊ฑฐ)
Effects
RQ1๊ทธ๋์ ์ ๋ง ์ฑ๋ฅ ํฅ์์ด ๋๋๊ฐ (task success, constraint satisfaction, reward, accuracy)RQ2๋น์ฉ๋ ์ค์๋ (replanning ๋๋ฌธ์ ์๋ก ๋ฑ๋ token๋ฑ)- Experimental Setup:
- benchmarks:
- TravelPlanner(constraints ์ค์ฌ tool-planning): ์ฌ๋ฌ tool ์ฐ๋ฉด์ ์ฌ๋ฌ ๋๋ฉ์ธ(ํญ๊ณต/์์/์๋น/๊ด๊ด/์ด๋ ๋ฑ) ์ ์ฝ์กฐ๊ฑด์ ๋ง์ถฐ ์ฌํ๊ณํ ์ง๊ธฐ
- HotpotQA (interactive, multi-hop ์ถ๋ก ): wiki์์ search/lookup ํ๋ฉฐ multi-hop evidence ๋ชจ์์ ๋ต๋ณ
- ScienceWorld(closed-loop ํ๊ฒฝ์์ ์ํธ์์ฉ): text ๊ฒ์์ฒ๋ผ env.์ ์ํธ์์ฉ ํ๋ฉฐ ๊ณผํ ์คํ๊ณผ์ ์ํ
- baselines:
- ReAct: ๋งค step๋ง๋ค think > action
- CoT: ์ฒ์์ plan (๊ฐ์ ๊ฑธ) ์ธ์ฐ๊ณ ๊ทธ๋๋ก ๋ฐ๊ณ ๋๊ฐ๋ one-shot setup
- Plan-and-Act: high-level plan์ ์ธ์ฐ๊ณ ์คํ์ค ๋ฌธ์ ๊ฐ ์๊ธฐ๋ฉด ์ฌ๊ณํ (global์ผ๋ ๊ณ ๋น์ฉ)
- TDP: ์ ์๋ฐฉ์. DAG + node-scoped context + localized replanning
- backbone: DeepSeek-3.2, GPT-4o
- benchmarks:
- Results:
- Tab 1:
RQ1์ฃผ์ ์ฑ๋ฅ ๋น๊ต; deepseek-3.2, gpt-4o ๋ชจ๋์์ TDP๊ฐ ํญ์ ์์๊ถ- TravelPlanner (์ ์ฝ์ ์ ์ง์ผฐ๋๋๊ฐ ํต์ฌ): TDP๊ฐ ์ ์ฝ ๋ง์กฑ(ํนํ HC)๋ฅผ ๋์ด์ฌ๋ฆฌ๋ฉด์ ์ ์ถ ์คํจ(=์ค๊ฐ์ ๋ฌด๋์ ธ์ ๋์ ๋ชป๋ด๋) ๋ฌธ์ ๊ฐ์
- ์ ์ฝ ์ข ๋ฅ: CS(commonsense constraints; ์์์์ค), HC(hard constraints; ๊ตฌ์ฒด์ ์ธ ์๊ฐ/๋ ์ง/๋์/์์ฐ ๋ฑ ์ ์ฝ)
- ํ๊ฐ: micro(์ฌ๋ฌ ์ ์ฝ ์ค ์ผ๋ง๋ ๋ง์ด ๋ง์กฑํ๋์ง), macro(ํด๋น ์นดํ ๊ณ ๋ฆฌ ์ ์ฝ์ ์ ๋ถ ๋ง์กฑํ๋์ง all-or-nothing) > final pass(๋ชจ๋ ๊ฑธ ์ ์ฒด ํต๊ณผํ๋์ง)
- HotpotQA (์ฆ๊ฑฐ ์ ๋ชจ์๋ค๊ฐ ์ต์ข
๋ต ๋ด๋์ง๊ฐ ํต์ฌ): TDP๊ฐ sub-task ๋จ์๋ก reasoning์ ๊น๋ํ๊ฒ ์ ์งํด์ delivered correctness ํฅ์
- ํ๊ฐ: accuracy(์ต์ข ๋ต ๋ง๋์ง), Deli. Acc. (task completion ์ ์ ๋ก ๋ต์ด ๋ง๋์ง)
- step-wise๋ history๊ฐ ๊ธธ์ด์ง์๋ก drift ๋ฐ์
- one-shot์ ์ต์ด ๋ฐฉํฅ์ฑ์ด ํ๋ฆฌ๋ฉด ์ทจ์ฝ
- ScienceWorld (env.์ feedback( [0,1] scale์ progress ๊ธฐ๋ฐ reward)์ ๋ณด๊ณ ์ํธ์์ฉ ์ ํ๋์ง๊ฐ ํต์ฌ; ReAct ๊ณ์ด step-wise ๋ฐฉ์์ด ์ ๋ฆฌํ๋ค๊ณ ): ๊ฒฐ๊ณผ์ ์ผ๋ก gpt-4o๊ฐ best, deepseek๋ ๊ฒฝ์์์ค
- TravelPlanner (์ ์ฝ์ ์ ์ง์ผฐ๋๋๊ฐ ํต์ฌ): TDP๊ฐ ์ ์ฝ ๋ง์กฑ(ํนํ HC)๋ฅผ ๋์ด์ฌ๋ฆฌ๋ฉด์ ์ ์ถ ์คํจ(=์ค๊ฐ์ ๋ฌด๋์ ธ์ ๋์ ๋ชป๋ด๋) ๋ฌธ์ ๊ฐ์
- Fig 3:
RQ2token ๋น๊ต (plan-then-act vs. TDP)- ๋น๊ต๊ตฐ ๋๋น HotpotQA์์ ์ฝ 82%, ScienceWorld์์ ์ฝ 70-75% ์์ค ํ ํฐ ๊ฐ์
- Plan-and-Act๋ deviation์ด ์๊ธฐ๋ฉด global plan์ ๋ค์ ์ง๋๋ผ ์ด๋ฏธ ๊ฒฐ์ ๋ ๊ฒ๊น์ง ์ฌ์ ๋นํ๋ฅผ ๋ฐ๋ณต > ํ ํฐ ํญ์ฆ
- TDP๋ deviation์ด ์๊ฒจ๋ active node ์์์๋ง(=local) replanํ๋ ๋ง์ด ๊ธธ์ด์ง ์ด์ ๊ฐ ์์
- ๋น๊ต๊ตฐ ๋๋น HotpotQA์์ ์ฝ 82%, ScienceWorld์์ ์ฝ 70-75% ์์ค ํ ํฐ ๊ฐ์
- Fig 4: case study (TravelPlanner ์ฌ๋ก๋ก decoupling ์๋ ์์ธ ์ค๋)
- decomposition์ด ์ ๋ณด ๊ณต๋ฐฑ์ ๋ฉ๊พธ๊ธฐ๋ ํ๊ณ node isolation(localization)์ด ์ค์ ๋ถํ์ํ ์ ๋ณด ์ค์ผ์ ๋ง์
- Tab 1:
Personal note. long-horizon ์ต์ ์ฐ๊ตฌ๊ฐ์์ ์ฝ์ด๋ณด๊ธด ํ๋๋ฐ, NL ์ธก๋ฉด์์ ์ต์ ๋ฒค์น๋งํฌ ๋ฑ์ ํ์ธํ ์ ์์์ต๋๋ค. (ํ๋นํ์ง์๋ ๋ณ๊ฐ ๋ฌธ์ ..) ์ข ๋ณ๊ฑด์ด์ง๋ง ์คํ๋ ค ์ ํฌ ์ต๊ทผ preference reasoning ์ฐ๊ตฌ์์ preference-scope๋ฅผ ์ค๊ณํด๋ณด๊ณ ๊ทธ์ ๋ฐ๋ผ preference๋ฅผ ์์ ํ๋ ๊ฒ๋ ๋ฐฉ๋ฒ์ด ๋๊ฒ ๋ค๋ ์๊ฐ์ด ๋ค์ด์. DAG ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ๋ฉด preference trasnfer์ ์ฐ๊ฒฐ๋ ์ง๋..