LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
Meta info.
- Authors: Xiaoran Liu, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
- Paper: https://arxiv.org/pdf/2506.14429
- Affiliation: Fudan Univ., Shanghai AI Lab, Shanghai Innovation Institute
- Published: June 17, 2025
- Code: https://github.com/OpenMOSS/LongLLaDA
TL; DR
ํ๋ จํ ๋ ๋ณธ context length๋ฅผ ๋์ด์๋ Diffusion-based LLM์ "local perception" ๋๋ถ์ ์์ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ LongLLaDA ์ ์. NTK ๊ธฐ๋ฐ RoPE extrapolation์ผ๋ก Diffusion-based LLM์ input length๋ฅผ ์ต๋ 24k ํ ํฐ๊น์ง ํ์ฅ, ํ๋ จ ๋ถ์.






Background
- long dependency ์ฒ๋ฆฌ ๋ฐ reversal curse ๊ทน๋ณต ๋ฑ, auto-regressive manner (Transformers)์ ๋์์ผ๋กย Diffusion-based LLMย ์ฃผ๋ชฉ
- ์์ง๊น์ง๋ ๋จ~์ค๋ฌธ์ ๋ํ ์ฑ๋ฅ ํ์ธ, LC capacity์ ๋ํ ๋ณด๊ณ ๊ฒ์ฆ ๋ถ์กฑ
- NTK-based RoPE scalingย ๋ฑ์ด AR LLM์ ๋ํด ์ฌํ์ต ์์ด Inference-time์์ context length ํ์ฅ ๊ฐ๋ฅ์ฑ ํ์ธ
- RoPE scaling: rotary position embedding
- QK ๋ด์ ์ ์์น์ ๋ณด๋ก sinusoidal ํจ์๋ก ์ธ์ฝ๋ฉ์ ๋ํด์ฃผ๋ ๊ฒ (๋๋ถ๋ถ์ AR manner์์ ์ฌ์ฉ)
- ๋ฌธ์ ๋ ํ๋ จ๋ max-length์ ๋ํด์๋ง ์๋๋๋ ๊ฒ์ด ํ๊ณ: high dimensional sin/cos์ period๊ฐ ๋๋ฌด ๊ธธ์ด์ extrapolation์์ OOD ๋ฐ์
- NTK-based RoPE Scaling:ย Neural Tangent Kernel ๊ด์ ์ผ๋ก RoPE period๋ฅผ scalingํ๋ฉด extrapolation ๊ฐ๋ฅ
- https://www.reddit.com/r/LocalLLaMA/comments/14lz7j5/ntkaware_scaled_rope_allows_llama_models_to_have/
- tl;dr: RoPE์ period๋ฅผ ์ค์ด๋ฉด ( ์๊ฒ scaleํด์ฃผ๊ธฐ ) ํ์ต ๋ ๋ณธ context length๋ณด๋ค ๋ ๊ธธ์ด๋ ํ์ต๋ ๊ธธ์ด์ฒ๋ผ ์์ผ(?) ์ ์๋ค.
- rotary base(period)๊ฐ ํฌ๋ฉด > ์ฆ sin/cos ํจ์ ๋ณํ๊ฐ ๋๋ฆผ > ๋จผ ์์น ์ฐจ์ด ํํ
- rotary base๊ฐ ์์ผ๋ฉด > ์ง๋์ด ๋น ๋ฅด๊ณ > ์งง์ ๊ฑฐ๋ฆฌ ์์น์ ๋ฏผ๊ฐ
- RoPE scaling: rotary position embedding
Problem States
D-LLM์ LC ์ฑ๋ฅ์ ์ด๋ ํ๊ฐ?
- NTK-based RoPE scaling ์ ์ฉ์ด ๊ฐ๋ฅํ๊ฐ?
- training ์์ด context length ํ์ฅ์ด ๋ ๊น?
Suggestions
LongLLaDA, AR-LLM์์ ์ฐ๋ NTK-based RoPE scaling์ Diffusion-LLM์ training-freeํ๊ฒ ์จ๋ณด์
- ๊ธฐ์กด rotary base: beta_0=500,000
- scaling factor: ฮป=4, 14, โฆ
- scaling factor ฮป๋ extrapolation ๊ธธ์ด์ ๋ฐ๋ผ ์ค์ ย
Eq. (1) - Sampling step์ ๋๋ฆด์๋ก LLaDA์ retrieval depth ์ฆ๊ฐย
Fig 3
- scaling factor ฮป๋ extrapolation ๊ธธ์ด์ ๋ฐ๋ผ ์ค์ ย
- RoPE์ย sin/cos periodย ๊ด์ ์์ AR(causal attention) ๋ณด๋ค OOD ์์ญ์ด ๋ ์ ์ > extrapolation์ ๋ ๊ฐ๊ฑด
- DLLM์ bi-directional attention๊ตฌ์กฐ๋ผ position embedding์ด ๋์นญ์ ย
Fig 4ย (NIAH ์คํยFig 3์์ ํ์ )
- DLLM์ bi-directional attention๊ตฌ์กฐ๋ผ position embedding์ด ๋์นญ์ ย
Effects
- NIAH(needle-in-a-haystack) - retrieval accuracy ํ์ธ: Diffusion ๊ตฌ์กฐ์ local perception ๊ฐ์ ํ์ธย
Fig 2-3- AR LLM์ย [0, T-1] ๊ตฌ๊ฐ๋ง ํ์ต > ์ ์ฒด sin/cos ๊ณก์ ์คย ์ ๋ฐ๋ง(+) ๋ด > (-)๋ ๋ชจ๋ OOD๋ผ LC ์ฑ๋ฅ ๊ธ๋ฝย (NIAH 0%)
- Diffusion LLM์ย [โT+1, Tโ1] ๊ตฌ๊ฐ์ ๋ด > sin/cos์ย ์์ชฝ(+/-)์ ๋์นญ์ ์ผ๋ก ๊ด์ธก > LC์ ์์ชฝ์ ๋ชฐ๋ผ๋ ๋ท์ชฝ ์ต์ context๋ ์ ๋๋ก ๋ด (local perception,ย NIAH 10~25%์ ๋๋ ์ ์ง)
- lambda ablationย
Fig 6,7 (+ 8,9,10,11,12)- ฮป=4, 14 (๊ฐ 8K, 16K max length)์์ ์์ ์ ํ์ฅ
- ฮป=13๋ถํฐ AR์ฒ๋ผ lost in the middle ๋ฐ์. ์ค๊ฐ์์ context retrieve ์คํจ
- ฮป=55์์๋ extrapolation ์คํจ.
- LongBench: LLaDA๋ LLaMA3์ ๋๋ฑ, synthetic task์์๋ ์ฐ์. scaling ์ ์ฉํ๋ฉด ํ๊ท 2-4์ ์ ๋๋ ์ฑ๋ฅ ํฅ์ย
Tab 1 - RULER: QA๋ ๋ ์ํ์ง๋ง Aggregation(e.g., variable tracing)์ ๋ ๋ชปํ๋๋ผ: AR ๊ตฌ์กฐ๊ฐ global info ์กฐํฉ์ ๊ฐํ ๊ฒ์ผ๋ก ๋ณด์ย
Tab 2
Personal note. Diffusion LLM ๊ณ์ ํ์ธํด๋ด์ง ํ๋ค ์ดํ์ ์ต์ ์ฐ๊ตฌ๋ก ๋ณด์ด๋๋ฐ, bi-directional ํ๋ค๋ ๋๋์ด BERT๊ฐ ๊ณ์ ๋ ์ค๋ฅด๊ธด ํ๋ค์. reddit ์์ฑ์ ๋ฐฉ์๋ ๊ฐ๋จํ๊ณ ๋ฉ๋๊ฐ๋ฅํ๊ฒ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ณด์ธ ๊ฒ ๊ฐ์์ ํฅ๋ฏธ๋กญ์ต๋๋ค.