6 minute read

Meta info.

TL; DR

Tool-use에서 experiential knowledge를 획득·활성화·내재화 전 단계에 걸쳐 분석하고, instance-level trajectory + reasoning-width 확장(parallel sampling) + knowledge-aware training을 통합한 KATE를 제안

KATE figure 0 KATE figure 1 KATE figure 2 KATE figure 3 KATE figure 4 KATE figure 5 KATE figure 6

Background

  • tool-use 연구의 문제 환원 방식: (전제) 모델이 이미 충분한 experiential knowledge를 가지고 있다
  • tool-use 실패: reasoning 부족이 아닌 concrete, executable experience의 부재에서 비롯
    • 실행 수준의 지식 결핍: parameter constraint, scenario-specific operation pattern, error recovery strategy 등
  • tool-use의 knowledge를 다룬 선행 연구: (experiential knowledge / procedural memory) 대부분 특정 knowledge 표현 구성과 fine-grained retrieval 설계에 집중
  • 본 연구 제안: (1) Knowledge Acquisition & Integration, (2) Knowledge Activation & Utilization

Problem States

tool execution에서 experiential knowledge의 역할을 단계별로 분리

  1. 어떤 형태/granularity의 knowledge가 tool use에 가장 효과적인가 → Knowledge Acquisition & Integration
  2. 확보된 knowledge를 inference 시 어떻게 activate해야 하는가 → Inference-Time Activation
  3. knowledge를 parameter에 internalize(training)하면 retrieval만으로 얻는 것 이상의 추가 이득이 있는가 → Training-Time Activation

Suggestions

Definition

  • multi-turn tool use를 MDP로 정의
    • step $t$에서 LLM $P$는 tool set $\mathcal{T}$, system prompt $S$, dialogue history $H_t$를 조건으로 다음 action $o_{t+1}$을 예측
\[o_{t+1} = P(\mathcal{T}, S, H_t)\]
  • $o_{t+1}$: tool 호출 $c_{t+1}$ or 최종 자연어 응답 $a_{t+1}$ (binary)
  • 환경은 feedback $r_{t+1}$ 반환: tool 실행 결과 $r^{env}{t+1}$ 또는 user 발화 $r^{user}{t+1}$
  • history는 다음과 같이 갱신되어 Markovian loop를 완성
\[H_{t+1} = H_t \cup o_{t+1} \cup r_{t+1}\]
  • knowledge base $\mathcal{K}$에서의 retrieval: query $Q$와 stored knowledge 간 similarity가 threshold $p$ 이상인 entry 중 top-$K$ 선택
\[R(Q) = \text{Top-}K \lbrace k_j \mid k_j \in \mathcal{K}, \mathrm{sim}(Q, k_j) \ge p \rbrace\]
  • $Q$: user query $r^{user}{t+1}$(instance-level) 또는 추론된 intent $I{t+1}$(intent-level)
    • intent-level은 $K=1$로 가장 유사한 한 건만 사용
  • user query가 관측되면 retrieved knowledge를 해당 turn에 concat해서 augmented history로 진행

Knowledge Acquisition & Integration

  • experiential knowledge를 granularity 기준으로 instance-level과 intent-level로 나누고, 각 level에서 두 형태씩 총 4종을 구성
    • Instance-level: 구체적, example-specific guidance
      • Scenario Trajectory Knowledge (ST): 비슷한 과거 예시 sequence를 통째로 제공
        • ground-truth tool 실행 trajectory를 그대로 input으로 제공 (step-by-step 명시적 가이드)
      • Experience Summary Knowledge (ES): 해당 sequence를 LLM으로 요약해서 제공
        • query와 ground-truth trajectory 쌍을 LLM(GPT-4o)에 넣어 textual operational guideline으로 요약
    • Intent-level: task 목표/결정 패턴의 추상화
      • Script-Style Intent Clustering Knowledge (SIC): 비슷한 query를 의도별로 묶어서 조건분기가 있는 JSON SOP로 일반화
        • query intent를 생성 → K-Means clustering → 각 cluster를 conditional logic + step sequence를 담은 JSON SOP script로 induction
      • Textual-Style Intent Clustering Knowledge (TIC): 해당 SOP를 자연어로 제공
        • SIC의 refined pattern을 자연어 서술로 다시 풀어쓴 형태
  • knowledge base 구축: instance-level은 user query를 인코딩 저장
    • intent-level은 raw query가 아니라 추론된 intent $I$를 인코딩해 저장
  • Fig 1 Qwen3-8B/32B × BFCL-V3 벤치마크 시나리오(Base/Miss Func/Miss Param/Long Context)
    • instance-level이 intent-level보다 일관되게 큰 성능 향상
      • instance-level: trajectory가 directly executable한 fine-grained 가이드로 작용
        • ST와 ES는 전반적으로 비슷; 어떤 쪽이 우세한지는 task/backbone에 따라 달라짐
      • intent-level: query에서부터 intent를 맞히고 → 그 추상 패턴을 현재에 다시 구체화하므로, 앞선 단계에 오류가 있으면 누적
    • 여러 knowledge를 단순히 다 쌓는다고(ST+ES+SIC+TIC) 추가 이득이 보장되지 않음
      • redundancy/interference가 생겨 오히려 loss
      • 양보다 selective integration이 중요

Knowledge Activation: Inference-Time

  • 고정된 knowledge 하에서, 모델의 tool-use 능력을 어떻게 더 잘 끌어낼지를 (1) reasoning depth와 (2) reasoning width 두 축으로 탐구
  • Depth-based Prompt-Hint Activation: 각 tool 실행 뒤 user-role hint를 삽입 (더 깊고 구조화된 추론 유도)
    • intent/reflection/state 세 관점의 hint를 BFCL의 common failure mode에 맞춰 설계 (Prompt 3-5)
    • Fig 2 일부 시나리오에서만 향상
      • 전반적으로는 gain에 제한, 오히려 정확도 하락하기도
      • 추론을 미리 정한 관점으로 강제하면 모델의 유연성이 줄어 다른 핵심 정보를 놓친다고 해석 가능
  • Width-based Parallel Sampling with Aggregation: 전체 sequence를 한 번에 생성하지 않고, 매 step마다 $N$개 candidate action을 독립적으로 샘플
    • 모든 candidate가 일치하면 그대로 실행; 불일치하면 aggregation function $\mathcal{A}(\cdot)$으로 최종 결정 (Algorithm 1)
    • aggregation 전략
      • Self-consistency: parallel candidate 간 majority vote/consensus
      • LLM-based aggregation: 여러 candidate를 모델에 다시 넣어 최적 action을 고르게 함 (Prompt 1)
    • Fig 3 reasoning width 확장이 depth 확장보다 효과적
      • parallel sampling이 정확도를 크게 끌어올림
        • temperature 0 (greedy decoding)은 모델 내부 지식을 충분히 못 씀
        • 샘플링 온도를 올리면 관련 지식이 더 자주, 더 잘 발현
      • self-consistency가 더 안정적, sampling scale에 둔감
        • 다만 구조화나 다양한 응답이 필요한 code-based agent에는 덜 적합
      • LLM-based aggregation은 추가 향상이 가능하나 sample 수에 monotonic하지 않음
        • 긴 context 내 다수 candidate 추론의 한계

Knowledge Activation: Training-Time

  • post-training 추가: knowledge를 모델 parameter에 내재화 시도
    • 학습 데이터는 inference 때 쓰던 입력을 그대로 재사용: 원래 instruction에 검색된 knowledge $R(Q)$를 이어붙인 입력을 학습 샘플로 사용
    • 직관(hint-assisted RL): knowledge를 미리 끼워주면 정답 reasoning trajectory가 샘플될 확률이 올라가 학습이 효율적으로 수렴
  • post-training은 SFT와 RL(GRPO) 둘 다 적용 → RL이 SFT보다 더 큰 향상

KATE

acquisition → activation → training을 하나로 묶은 framework Fig 4 Algorithm 2

  • acquisition: ST 채택(가장 단순한 trajectory 지식만으로도 충분히 효과적)
  • activation: parallel sampling + LLM-based aggregation으로 latent knowledge 발현
  • training: 위 knowledge-usage 틀 위에서 post-training으로 추가 내재화
    • training-free 설정과 training-based 설정 양쪽에서 state-of-the-art 달성을 목표로 함

Effects

  • Experimental setup
    • datasets
      • BFCL-V3: multi-turn tool-use
        • Base / Miss Func / Miss Param / Long Context
      • AppWorld: interactive coding agent
        • state 기반 평가
    • models: Qwen3-8B, Qwen3-32B + (appendix) Llama3.2-3B-Instruct
    • baselines
      • BFCL-V3: Function Calling(FC), Prompt(BFCL 제공 기본 프롬프트), Memp(static non-updating 버전)
      • AppWorld: ReAct, ReAct+ST, Memp
    • split
      • BFCL: Base에서 100 sample만 training, 나머지는 testing
        • knowledge는 Base training split에서만 추출
      • AppWorld: training 인스턴스 90개에서 GPT-4o로 정답 풀이 절차를 distill → 그중 실제로 맞은 81개로 knowledge base 구성
    • retriever: all-MiniLM-L6-v2
      • toolset(class)로 search space hard-constraint → cosine similarity threshold $p=0.5$
    • inference: inference temperature 0, parallel sampling temperature 1, sampling size 4; A800/A100; 단일 run 보고(appendix에서 multi-seed 보강)
  • Results
    • Tab 1 main BFCL-V3
      • Qwen3-8B: Direct RL > SFT+RL
        • FC 32.75 → KATE(SFT+RL) 46.00 (+13.25) → Direct RL 48.25 (+15.50)
      • Qwen3-32B: +4.50로 스케일업에서 향상 폭 작아짐
      • KATE 적용한 Qwen3가 특정 tool-use 시나리오에서 GPT-4.1, GPT-5 상회
        • fine-tuning이 context 주입보다 추가 gain; inference-time 활성화만으로는 상한
      • ablation: baseline < w/o PS(parallel sampling 제거) < full KATE
    • Tab 2 AppWorld
      • KATE > ReAct, ReAct+ST
      • reasoning width와 task complexity 사이의 trade-off: Test-C(hallenge)에서 일부 지표가 Memp에 근소하게 밀림
        • task 난도가 모델의 본질적 추론 한계를 넘어서면 parallel sampling이 valid trajectory 생성 불가, 다수 후보가 noise로 작용
    • Fig 5 error type 분석 (gpt-5-mini로 분류)
      • planning/reasoning error가 모든 방법에서 주요한 실패
        • 모델이 무슨 tool을 어떤 순서로 불러야 하는지 그 계획/추론 자체를 틀린 경우
        • ST로 크게 줄고 parallel sampling으로 추가 감소
      • premature termination(작업이 안 끝났는데 모델이 조기 종료하는 오류)도 parallel sampling이 유의하게 완화; long-horizon 실행의 robustness 향상
    • Fig 6 training 분석: knowledge internalization에서 RL이 SFT보다 효과적
      • SFT+RL도 유효하나 Direct RL이 수렴 품질과 최종 정확도에서 우위
    • Tab 3 efficiency: parallel 4-way + aggregation에도 비용이 선형 증가하지 않음
      • Qwen3-32B 기준 token 1.29배 수준
        • 정확도 향상이 불필요한 추론 step을 줄여 상쇄
      • self-consistency로 바꾸면 token 소모가 거의 같거나 오히려 감소

Personal note. 동일 저자(Yupu Hao) 라인의 ETAPP 차기 연구라고 읽으면 결이 있는 것 같기도 하고요. 개인적으로 흥미로운건 instance-level trajectory가 intent-level abstraction보다 낫다는 결과인데, personalization 관점에서는 당연히 abstraction이 유익할 수 있지만, 정확성을 낮출 수 있다는 측면은 동의되기는 합니다. 즉 정면 반례라기보단 abstraction이 언제 어떻게 쓰일건지를 다시 고민해봄직 하다고 정리할 수 있겠습니다. fig3에서 self-consistency가 LLM-based aggregation보다 더 안정적이라는건 역시 모델 응답의 confidence가 낮다는 소리 같고요.