SSRL: Self-Search Reinforcement Learning

August 28, 2025 1 minute read

Meta info.

Authors: Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou
Paper: https://arxiv.org/pdf/2508.10874
Affiliation: Shanghai AI Lab, Shanghai Jiao Tong Univ., Tsinghua Univ., UCL
Published: August 14, 2025

TL; DR

검색엔진이나 다른 LLM 등 외부 tool 없이 검색을 Full-simulation해서 RL → real-world로 전이 가능한 self-search 모델 구축

Background

LLM의 Reasoning 능력 향상에 따른 math/coding task에서의 성공
ODQA(search-based) task에서의 reasoning을 위해서는 보통 외부 tool 활용
- Search-R1, Kimi V2 등은 검색엔진 api 답변으로 RL→ 숱한 rollouts (e.g. search API calls)에 대한 학습 비용 부담
- ZeroSearch 등은 web search api 대신 LLM api 활용해서 흉내내기도

Problem States

검색엔진이나 다른 LLM 등 외부 tool 없이 search할 수 있는 모델 학습

검색 스타일 QA에서 내부 지식만으로는 어디까지 성능이 나올까
검색 api 안쓰고는 검색 못배우나
- full-simulation 환경에서만 학습한 모델이 real-world에서 검색을 진짜 할 수 있을까

Suggestions

Self-search 데이터셋 구축
- seed data: NQ, HotpotQA
- backbone: LLaMA-3.1-8B-Instruct, Qwen2.5-14B-Instruct
- process
  1. seed에서 question만 input으로
  2. , , , 태그 붙여서 생성
    - think: CoT
    - search: 검색어
    - information: 모델이 자체생성한 fake search 결과
    - answer: final answer
  3. 가 데이터셋의 gold answer와 **동치**인지 확인 → **outcome reward**로 사용
SSRL
- objectives: GRPO (외 policy optimization 확인)
- reward:
  - outcome reward: 정답이면 +1 오답이면 -1
  - format reward: 태그 잘 붙였을 때 가산 ( $\lambda_f=0.1$ )
- methods:
  - (A) 가짜 검색(Self-Search만): 외부 검색 호출이 아예 필요 없음 → 빠르고 비용 0
    - 당연히 모델 파라미터에 들어있는 지식까지만 커버 → 최신 정보, 희귀 사실은 못잡을 것
  - (B) 실제 검색 결과로 교체 (Sim2Real): 성능이 더 확실하게 향상.

Effects

Experiments Setup:
- metrics: pass@k
- benchmarks and search engine: Tab 2
results:
1. Self-search 기준, LLM-only에서 얼마나 성능 향상이 일어날까
  1. self-search만 해도 일부 task에서는 SOTA거나 평균 최고성능확인 Tab 3
  2. scaling: k 수 늘수록 self-search 성능 크게 향상
  3. Bamboogle에서 LLaMA-3.1-8B-Instruct 기준 pass@1=34.9% → pass@1024=87.2%로 향상
  4. k가 늘 때 o1이나 Search-R1보다 훨씬 가파른 성능 향상 확인
2. Sim2Real: 검색한 척만 학습해도 실제 검색이 가능한가? Tab 4
  - Search-R1이나 ZeroSearch 같은 전통 검색-RL 모델보다 적은 call로 더 좋은 성능
  - 엔트로피 기반 트리거(“불확실하면 검색하라”) 쓰면 call수를 20–40% 줄이면서도 평균 점수는 유지
  - 검색횟수는 3회정도, 다 쓴거와 비슷