Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models
Meta info.
- Authors: Sander Land, Max Bartolo
- Paper: https://arxiv.org/pdf/2405.05417
- Affiliation: cohere
- Published: May 8, 2024
- Code: https://github.com/cohere-ai/magikarp/
TL; DR
LLM์๊ฒ ํ์ต ๋ ๋ ํ ํฐ ์๋ ๊ฐ์ง๊ธฐ์ ์ ์



Problem States
LLM์ Tokenizer๋ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ต โ โunder-trainedโ tokes (glitch tokens)์ผ๋ก hallucination ๋ฑ ์ฑ๋ฅ ์ ํ ๋ฐ์๋๋ ๋ณ๋ ์๋ณ ๋ฐฉ๋ฒ์ด ์์.
- glitch token: vocab์๋ ์์ง๋ง ํ์ต์๋ ๊ฑฐ์ ์๋ ํ ํฐ. e.g.ย
SolidGoldMagikarp
Suggestions
โunder-trainedโ token ํ๋ณด ๊ฐ์งํ๋ ํด๊ฒฐ์ฑ 3๊ฐ์ง ์ ์
- vocab๊ณผ en-/decoding ๋ถ์
- embedding๊ณผ final layer๊ฐ ์ ์ฌ์ฑ metric
- ๋ชจ๋ธ์ ๋ฐ๋ณต์ ์ผ๋ก ํ๋กฌํํ
Effects
vocab์ 0.1~1%์ ํ ํฐ์ด ์ฌ๊ฐํ๊ฒ under-train๋จ.
- LLaMA3/Pythia ๋ฑ์์ ํ ํฐ ๊ฐ์ ๊ธฐ์ค ์์ฒ ๊ฐ์ ํด๋น
Personal note. ์ธ์ด๋ชจ๋ธ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ผ์น๋๋ฐ ๊ฐ๋์ ๋๋ฌด ๋น์ฐํด์ ์ฝ๊ฒ ์ํ์ง๋ ๊ฒ ๊ฐ์ ํ ํฌ๋์ด์ ์ ๋ํ ๋ถ์์ด ์ธ์์ ์ ๋๋ค. ๊ฒ์ฆํ๋ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ์๋ณด๋ค๋ ์ด๋ฌํ ํ์์ ๋ํด ์ดํดํ๊ณ ์๋ ๊ฒ ์ค์ํ๋ค๋ ๊ฐ์์ด์์. (
SolidGoldMagikarpย ๋ ์ด๋ ๋ ๋ง ์ ์ ๋ช ์ ๋๋ค )