GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning
Meta info.
- Authors: Chuanyue Yu, Kuo Zhao, Yuhan Li, Heng Chang, Mingjian Feng, Xiangzhe Jiang, Yufei Sun, Jia Li, Yuzhi Zhang, Jianxin Li, Ziwei Zhang
- Paper: https://arxiv.org/abs/2507.23581
- Affiliation: Beihang Univ., HKUST, Huawei, Nankai Univ.
- Published: July 31, 2025
TL; DR
RL(GRPO)์ 2๊ฐ์ง constrained reward(RPA + CAF) ์ ์ฉํ์ฌ GraphRAG agent ํ์ต > ๊ฒ์ํ ๋ ์
๋ ฅ์ผ๋ก triplet๊ณผ ์์ฐ์ด ํ์ด๋ธ๋ฆฌ๋ ํ์ฉํ์ฌ multi-hop QA์์ ํฐ ์ฑ๋ฅ ํฅ์ ํ์ธ





Background
- GraphRAG ๋๋๋๊ณ ์๊ธด ํ์ง๋ง, ์ฌ์ ํ multihop QA์์ ์คํจ : ๋จ์ ์ ์ฌ๋ ๊ธฐ๋ฐ ๊ฒ์์ด๋ heuristics์ ์์กด
- RAG์์์ RL: DeepSeek-R1์ด๋ R1-Searcher๋ฑ์์ RL์ด think-then-retrieve ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ค๋ ๋ณด๊ณ .
Problem States
GraphRAG์์ RL ์ ์ฉ ๊ฐ๋ฅ์ฑ ํ์ธ > multi-hop QA ์ฑ๋ฅ ๊ฐ์
- graphRAG์ heuristics์ ๋ํ ํ๊ณ
- outcome-only based reward์ hacking ์ฐ๋ ค > ์์ ๊ฒ์ ํน์ ๋ฐ๋๋ก over-thinking ์ผ๋ก ์ด์ด์ง๊ฒ
- long-input์ผ๋ก๋ ๋น์ฉ ํ๊ณ
Suggestions
- GRPO ๊ฐ์ : w/Rollout-with-Thinking + Retrieval-Masked Loss
- Rollout-with-Thinking:
- ๋ฐ๋ก ๊ฒ์ํ๋ ๊ฒ ์๋๋ผ reasoning ๊ณผ์ ์์ ์ ์ ํ ์์ ์์ ํ์ํ ๋
โฆ</end_of_query> ์์ฑ - ๊ฒ์ ์คํ: (๋ ผ๋ฌธ์์ ๊ธฐ๋ณธ ์ค์ ์ HippoRAG2)
-
๊ฒ์ ๊ฒฐ๊ณผ์ text snippet์ ๋ค์ ์ถ๋ก ์ ์ํด < begin_of_documents >โฆ< end_of_documents > ์ฌ์ด์ ์ถ๊ฐ
- ๋ฐ๋ก ๊ฒ์ํ๋ ๊ฒ ์๋๋ผ reasoning ๊ณผ์ ์์ ์ ์ ํ ์์ ์์ ํ์ํ ๋
- Retrieval-Masked Loss
- text snippet์ maskํ์ฌ gradient ๊ณ์ฐ์์ ์ ์ธ
- ๋ชจ๋ธ ์ค์ค๋ก๊ฐ ์์ฑํ Reasoning์ ๋ํด์๋ง optimization
- ์๋: retriever์ ์ธ๋ถ ํ ์คํธ์ ์์กด ์์ด ์์ ์ ํ์ต, ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ํ์ฉํ๋ ๋ฐฉ์๋ง ๋ฐฐ์
- Rollout-with-Thinking:
- Reward Design:ย Process-Constrained Rewards:
- format: Retrieval calling format์ด ๋ง์ ๋ 0.5 ๋ฆฌ์๋ ๋ถ์ฌ
- PRA(Progressive Retrieval Attenuation):ย ์ฒซ ํธ์ถ์ย ๊ธฐ๋ณธ ๋ณด์ย ํฌ๊ฒ ์ฃผ๊ณ , ์ดํ ๊ฒ์ ํธ์ถ๋ง๋คย ์ง์์ ์ผ๋ก decay๋ ๋ณด์ ๋์ = shallow retrieval(๋๋ฌด ์ ์ ๊ฒ์๊ณผ ๋ฌดํ ๊ฒ์ ๋์์) ๋ฐฉ์ง
- CAF(Cost-Aware F1):ย over-thinking ๋ฐฉ์งํ๊ณ ์ ์ต์ข ๋ต์ f1-score์ ๊ฒ์ ํ์ *ย ๋น์ฉ ํจ๋ํฐ >ย ๊ฐ์ ์ ํ๋๋ผ๋ฉด ๊ฒ์ ํ์๊ฐ ์ ์์๋ก ๋ณด์ ํฅ์
- 3-phrase training: cold-start SFT(retriever calling ํ์ต) > behavior shaping with format +PRA (๊ฒ์์ ์ธ์ ์ผ๋ง๋ ์์ฃผ ํ ์ง) > smartness optimization w/CAF (์ ๋ต ์ ํ๋์ ํจ์จ ๊ท ํ)
- hybrid retrieval: triple + ์์ฐ์ด ๋ชจ๋ ํ์ฉํ์ฌ ํ์ต๊ณผ ์ถ๋ก ๋ชจ๋์ ํ์ฉ
Effects
- Experimental Setup: ์ฃผ๋ก Qwen-2.5-7B์ retriever๋ก HippoRAG2
- target datasets: HotpotQA, 2Wiki, MuSiQue, PopQA
- metrics: F1, SBERT similarity, LLM-as-Judge Accuracy
- ๋ชจ๋ ๋ฐ์ดํฐ์
์ ๋ํด ์ฑ๋ฅ ํฅ์ ํ์ธย
Tab 1 - ablation
- PRA ์ ๊ฑฐ: call ์๋ ์ค์ง๋ง ๊ฒ์ depth๊ฐ ์๊ณ F1 ํ๋ฝ
- CAF ์ ๊ฑฐ: call ์ ๊ณผ๋ํ๋ฐ F1 ํฅ์ ์์
- 2-reward ๋ชจ๋ ํ์์ . reward ๊ฒฐํฉ์ task ๋์ด๋์ ๋ฐ๋ฅธ ๊ฒ์ ์กฐ์ ํจ๊ณผ
- Hotpot/PopQA์์๋ call ์ ๊ฐ์
- MuSiQue/2Wiki์์๋ call ์ ์ฆ๊ฐ
- phrase-training: cold start ์๋ตํ๋ ๋ชจ๋ loss/reward ํ๋ฒ์ ํ๋ ๊ฒ๋ณด๋ค ์ ์ํ 3๋จ๊ณ ๋ฐฉ์์ด ๊ฐ์ฅ ์ฐ์
- ์ด๊ธฐ์ format๊ณผ calling ๋ฐฉ์์ ๋ฐฐ์ฐ๋๊ฒ ์ต์ ํ์ ์ ๋ฆฌ
- hybrid ๋ฐฉ์์ ๊ฒ์์ด ํ์ต๋ฉด์์๋ best F1, triple ๋น์จ ๋์ด๋ฉด F1 ์ด์ง ์์ค์ ์์ง๋ง ํ ํฐ์ ํฌ๊ฒ ๋ฒ ์ ์์
- backbone์ด๋ retriever ๋ญ๋ก ๋ฐ๊ฟ๋ ์ ์ ๋ฐฉ์์ ๊ฐ๊ฑดํ ๊ฐ์ ํจ๊ณผ ํ์ธ
Personal note. ํ์ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ๋ณด๊ฒ ํ๊ธฐ ์ํด์ RL์ ํ์ฉํ ์ ์๋๊ฐ? ์ ๋ํด ๊ณ ๋ฏผํด๋ณด๋ ค๊ณ RL์ task์ ์ ์ฉํ๋ ํ์ดํผ ๋์ ๋๋ ๊ฒ ์์ฃผ๋ก ํ์ธํ๊ณ ์๋๋ฐ, optimization ๋จ๊ณ์์ ์ผ๋ถ๋ฅผ maskํ๊ฑฐ๋, loss๋ฅผ ๋ค์ธต์๋ก ์ค๊ณํด์ ๋จ๊ณ๋ฅผ ์ฃผ๋ ๋ฐฉ์์ ์ ์ตํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.