NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
Meta info.
- Authors: Mo Li, Songyang Zhang, Yunxin Liu, Kai Chen
- Paper: https://arxiv.org/pdf/2407.11963
- Affiliation: Tsinghua Univ.
TL; DR
(1) ์ฌ๋ฌ ๊ธธ์ด์ interval (2) ๋ค์ํ depth range๋ฅผ ๊ฐ์ง (3) ์ ์ง์ ์ผ๋ก ์ด๋ ค์์ง๋ (4) 2 ์ธ์ด(์๋ฌธ/์ค๋ฌธ)์ long context ๋ฅ๋ ฅ์ ํ๊ฐํ๋ NeedleBench ์ ์ ๋ฐ ๋ค์ํ ๋ชจ๋ธ๋ก ํ๊ฐ ๊ฒฐ๊ณผ ๋ฆฌํฌํธ




Suggestion
- Task Details:
- Single-Needleย ReTrieval Task: LLM์ดย ๋จ์ผย ํต์ฌ ์ ๋ณด ๊ธฐ์ตํ๋์ง
- ๊ธด ํ ์คํธ์ ๋ค์ํ ์์น์ ์ ๋ณด ์ฝ์ ํ๊ณ ์ด๋ฌํ ๊ด๋ฒ์์์ ์ ๋๋ก needle ์ฐพ๋์ง ํ์ธ
- Multi-Needleย ReTrieval Task: LLM์ดย ์ฌ๋ฌย ๊ด๋ จ ์ ๋ณด ๊ฒ์ ์ ํ๋์ง
- ํฌ๊ด์ ์ธ ๋ฌธ์์์ ์ฌ๋ฌ ๋ฐ์ดํฐ ํฌ์ธํธ extract ์ ํ๋์ง ํ์ธ
- Multi-Needleย ReaSoning Task: LLM์ด ์ ๋ณด ์ถ์ถ ํย ์ถ๋ก ๊น์งย ์ ํ๋์ง
- ์ถ์ถํ ์ ๋ณด๋ก ๋ค์ํ text ๋ถ๋ถ๋ค์ ๋ํ ์ดํด + ์ถ๋ก ์ด ๋ณตํฉ์ ์ผ๋ก ํ์ํ ๋ต๋ณ ํ๊ฐ
- Single-Needleย ReTrieval Task: LLM์ดย ๋จ์ผย ํต์ฌ ์ ๋ณด ๊ธฐ์ตํ๋์ง
- Dataset Construction:
- needle design
- ์ถ๋ก ๋จ๊ณ 1~5๋จ๊ณ ์ด์ ๋ฑ์ผ๋ก ๊ตฌ์ฑ, ๋๋ถ๋ถ 1~2๋จ๊ณ
- abstract/nonexistent needle: ๋ชจ๋ธ ๋ด๋ถ ์ง์์ด ์ ๋ณด ๊ฒ์ ๋ฅ๋ ฅ์ ์ ํดํ์ง ์๋๋ก, ์ถ์์ ์ด๊ฑฐ๋ ์ธ์์ ์๋ ์ ๋ณด๋ก needle ๊ตฌ์ฑ
- M-RT์ ๊ฒฝ์ฐ HotpotQA์ ๊ฐ์ ํR^{4}C ๋ฐ์ดํฐ์
ํ์ฉํ์ฌ ๊ตฌ์ถ
- ๋๋ช ์ฌ ๋ฑ ์๋๋ก ์ฒ๋ฆฌ.
- ์ค๊ตญ์ด ๋ฒ์ญ
- haystack design
- PaulGrahamEssays ํ์ฉ ํ๋กฌํํธ๋ฅผ ๋ชฉํ ๊ธธ์ด๊น์ง ํ์ฅ
- 32K~200K์ context length ๊ตฌ์ฑ
- needle design
Effects
- Results
- metric: Recall Acc, sequential averaging, overall score
- ๊ธธ์ด ๋ณํ ์ํฅ:
- (32K)ย
InternLM2-7B-200K: S-RT์์ ์ฐ์ํ๋ฐ ๋ฐํด M-RT์์ ์๋นํ ์ฑ๋ฅ ์ ํ - (200K)ย
Orion-14B-LongChat: M-RT๋ ์ ํ๋๋ฐ , S-RT, ํนํ context ๊ธธ์ด 80K ํ ํฐ ์ด์์์ ํ๊ณ - (1000K)ย
GLM4-9B-Chat-1Mย ยซยInternLM2-7B-200K
- (32K)ย
- ๋ชจ๋ธ ์ฌ์ด์ฆ ์ํฅ: ๋น๋กํด์ average score ์์นํ์ง๋ง, 8K ์ด๋ด๋ฉด ํ๋ผ๋ฏธํฐ ์ฌ์ด์ฆ ์ํฅ์ ์๋์ ์ผ๋ก ์์๋ฏ
- needle ์์น ์ํฅ: ์๋ถ๋ถ์ ์์์๋ก ๋ถ๋ฆฌ. (
InternLM2-7B-200Kย M-RT์์ ์์ธ) - ATC ์ฑ๋ฅ: reasoning path์ถ๊ฐํ๋ฉด ATC ์ฑ๋ฅ ํฌ๊ฒ ํฅ์ (Claude-3-Opus ๋ฑ)
- ATC: long context์ ์กด์ฌํ ๊ฐ๋ฅ์ฑ์ด ๋์ ๋ ผ๋ฆฌ์ ์ถ๋ก ๊ณผ์ ์ ๋ณต์ก์ฑ์ ๋ชจ๋ฐฉํ task๋ก, multi-step reasoning ํ๊ฐ (์ฐ์์ ์ธ ๋ ผ๋ฆฌ๋ฅผ ๊ตฌ์ถํ๋ค๋๊ฐ, ์คํธ๋ ์ค ํ ์คํธ๋ฅผ ํ๋ค๋๊ฐ ๋ฉํฐ ์ด์ด์ค๋ฅผ ์ํค๋ ๋ฑ)