ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
Meta info.
- Authors: Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro
- Paper: https://arxiv.org/pdf/2407.14482
- Affiliation: NVIDIA
TL; DR
์ด์ ๊ณต๊ฐํ๋ ๋ชจ๋ธ(Chat QA 1.5)์ LLaMA3-70B์ context length ํ์ฅํ๋ฉด์ instruction following / RAG capability ํฅ์์ํค๋ ๋ฐฉ๋ฒ ์ ์



Suggestions
- Llama3-70B input length 8K์์ 128K๋ก ํ์ฅ
- SlimPajama๋ก continual pretraining
- BOS, EOS์ special token ํ์ฉ์ด ๋ ํจ๊ณผ์ : Llama3์
์ ํ ํฐ์ด ์ฌ์ ํ์ต ํ ๋ชจ๋ธ์ ์ด์ ํ ์คํธ ์ฒญํฌ๋ฅผ ๋ฌด์ํ๋ผ๋ ์ ํธ๋ฅผ ๋ณด๋ด๊ธฐ ๋๋ฌธ, long context์ ๋นํจ์จ
- RAG + long context ๋ฅ๋ ฅ ํฅ์์ ์ํ instruction tuning
- 1๋จ๊ณ 128K ๊ธฐ์ค Instruction tuning
- 2๋จ๊ณ context + ๋ํํ QA ํผํฉ ๋ฐ์ดํฐ๋ก ํ์ต (์ต๋ 4K input)
- 3๋จ๊ณ 128K SFT ์์ง (?)
- Long context retriever
- top-k chunk-wiser retriever ๋์ long-context retriever
- chunk ๊ธธ์ด๋ ๊ธธ์๋ก ์ข์๊ณ , ๋น์ฉ ์ธก๋ฉด์์ ์ด ์ฌ์ฉ ํ ํฐ ๊ธฐ์ค์ผ๋ก chunk size 1200 + top-5 retrieval ์ ๋ต ํ์ฉ
- encoder: E5-mistral
- top-k chunk-wiser retriever ๋์ long-context retriever
Effect
GPT-4-Turbo2024-0409์ ๋น์ทํ ์ ํ๋
Personal note. technical report์ ๊ฐ๊น๊ธฐ๋ ํ๊ณ ์๋ก์ด ์ธ์ฌ์ดํธ๋ผ๊ณ ํ ์ ์๋ ๋ถ๋ถ๋ ํฌ์ง ์๊ธด ํ์ง๋ง ๊ณ์ ์์ ๋ชจ๋ธ๋ก ๋ํ๊ผด capacity ํฅ์์ํค๋ ค๋ ๋ ธ๋ ฅ์ ํ๊ณ ์๋ ๊ฒ ๊ฐ์์ following ํด๋ด ๋๋ค.