Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights
Meta info.
- Authors: Zhiyuan Liang, Dongwen Tang, Yuhao Zhou, Xuanlei Zhao, Mingjia Shi, Wangbo Zhao, Zekai Li, Peihao Wang, Konstantin Schรผrholt, Damian Borth, Michael M. Bronstein, Yang You, Zhangyang Wang, Kai Wang
- Paper: https://arxiv.org/pdf/2506.16406
- Affiliation: NUS, Oxford Univ., UT Austin, Univ. SG
- Published: June 19, 2025
TL; DR
prompt๋ฅผ input์ผ๋ก, LoRA-tuend ํ๋ผ๋ฏธํฐ๋ฅผ output์ผ๋ก ํ์ฌ SFTํ๋ ๋ชจ๋ธ DnD ์ ์. DnD๋ฅผ ํ ๋ฒ ํ์ต ํด๋๋ฉด task๋ง๋ค ์ถ๊ฐ ํ์ต ์์ด๋ task-specific LoRA weight๋ฅผ ๋ง๋ค ์ ์๋ค.

Background
LoRA-tuning๋ ์ด์จ๋ ๋น์ฉ์ด ํฌ๋ค.
- PEFT๋ฅผ ์ฐ๋ฉด low-rank matrices ํ๋ จ์ผ๋ก FFT ์์ด๋ LLM tuning ๊ฐ๋ฅ > ์ฌ์ ํ per-task fine-tuning ํ์
- RPG, COND P-DIFF, ORAL ๋ฑ ๋ค๋ฅธ hyper-network๋ค์ ๋ณดํต task ID ๊ฐ์ ์ฌํํ condition์ ์ฌ์ฉ
- ์์ฐ์ด ํ๋กฌํํธ์ ๋ค์ํ ๋ณํ์ ์ฒ๋ฆฌํ๊ฑฐ๋ ์๋ก์ด ์์ ์ ๋ํ ์ผ๋ฐํ ํ๊ณ
Problem States
label์ด๋ finetuning ์์ด raw prompt์์ per-task LoRA weight(BA)๋ฅผ ์ง์ ์์ฑํ ์ ์์๊น?
Suggestions
DnD
- ์์ฐ์ด ํ๋กฌํํธ๋ฅผ condition์ผ๋ก LoRA ๊ฐ์ค์น๋ฅผ ์ง์ ์์ฑ (prompt-to-weight)
- ๊ธฐ์กด LoRA-tuning: ๋ฐ์ดํฐ > gradient > weight
- ์ ์ DnD ๋ฐฉ์: ๋ฐ์ดํฐ(prompt) > weight
- {prompt, LoRA-tuned weight (ckpt)}ย pair๋ฅผ parameter generator๊ฐย **MSE loss๋ก ํ์ต (ํ๊ท๋ฌธ์ ๋ก ์ ๊ทผ)
- ๋ค์ํ ๋ฐ์ดํฐ์ (e.g., ARC, BoolQ, gsm8K)์ผ๋ก LLM์ LoRA-tuningํ์ฌ ckpt ์์ง
- ๊ฐ weight์ mappingํ condition prompts ๊ตฌ์ถ: ๋ค์ํ task๋ณ ๋ชจ๋ธ์ ์
๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๋ query๋คย **(๋ต์ย โ)
- LoRA tuning์ ์ฌ์ฉํ input ํ ์คํธ๋ค ์ผ๋ถ ์ํ๋ง (batch ๋จ์)
- ๋๋ค pair ๊ตฌ์ถ: 1๊ฐ์ ckpt, 1๊ฐ์ prompt pair๋ฅผ random mapping
- text encoder: SBERT๋ก prompt embedding ์์ฑ
- parameter generator: Hyper-Convolutional Decoder
- input: condition prompt embedding batch, output: weight matrix
-
B=batch size, N=prompt ๊ฐ์, C: embedding ์ฐจ์, L: token ๊ธธ์ด (prompt ๋น)
clW = Conv1H(Conv1W(clโ1)) # prompt ๋ด๋ถ ๊ด๊ณ ํฌ์ฐฉ > prompt๊ฐ ์๊ด์ฑ ํฌ์ฐฉ clH = Conv2W(Conv2H(clโ1)) # prompt๊ฐ ์๊ด์ฑ ํฌ์ฐฉ > prompt ๋ด๋ถ ๊ด๊ณ ํฌ์ฐฉ cl = ConvL((clW + clH + b) / 3) # ๋ ์ด์ด๋ณ๋ก LoRA weight๋ฅผ ๋ถ๋ฆฌํด์ ์์ฑ- clW: ํ๋กฌํํธ ๋ด๋ถ ๋จผ์ ๋ณด๊ณ > ํ๋กฌํํธ๊ฐ ํจํด ํ์ธ
- Conv1W: L ร C ์ฐจ์์์ ํ๋กฌํํธ ๋ด๋ถ ํ ํฐ ์ํ์ค ์๊ด์ฑ ํฌ์ฐฉ
- Conv1H: N ร L ์ฐจ์์์ ํ๋กฌํํธ ๊ฐ ์๊ด์ฑ ํฌ์ฐฉ
- clH: clW ์์ ๊ต์ฒด
- cl: ์๋ก ๋ค๋ฅธ ์ ๋ณด์ clW์ clH ํ๊ท > ConvL ์ฒ๋ฆฌ(๋ ์ด์ด๋ณ๋ก LoRA weight๋ฅผ ๋ถ๋ฆฌํด์ ์์ฑ)
- clW: ํ๋กฌํํธ ๋ด๋ถ ๋จผ์ ๋ณด๊ณ > ํ๋กฌํํธ๊ฐ ํจํด ํ์ธ
- training: ์์ฑ๋ weight vs ์ค์ weight MSE Loss ํ์ต
- inference: ๋ฝํ weight๋ฅผ ๋ฐ๋ก LLM์ ๊ฝ์์ inference ์ํ
Effects
ํจ์จ์ฑ, ์๋, few-shot/ICL๊ณผ ๋น๊ต ๊ฒฐ๊ณผ DnD๊ฐ ์ฐ์
- full fine-tuning ๋๋น ์ฐ์ฐ๋ 1๋ง 2์ฒ๋ฐฐ ์ ๊ฐ (์ด๋จ์ weight ์์ฑ)
- LoRA full-shot ํ๋๋ณด๋ค ์ฑ๋ฅ ์ฐ์: few-shot, ICL๊ณผ ๋น๊ตํด๋ย 256-shot ์ด์ ์๋ ๋ฌด์กฐ๊ฑด ์ฐ์
- ์ฌ์ง์ด ์ผ๋ถ task์์๋ ์๋ณธ LLM ์์ฒด๋ณด๋ค๋ ๋ ์ข์ ์ฑ๋ฅ
- ์คํํ task๋ค์์ unseen task ์ํ์, ๊ธฐ์กด optimized-LoRA๋ณด๋ค ํ๊ท 30% ์ฑ๋ฅ ํฅ์ ํ์ธ
- ablation study:
- ๋ํ๋ชจ๋ธ๋ DnD ๊ฐ๋ฅ: 7B ๋ชจ๋ธ๊น์ง ํ์ฅ ๊ฐ๋ฅ ํ์ธ
- prompt ๊ฐ์๋ ๋ง์์๋ก ์ข์๊ณ , ๋ต์ ์์ฃผ๋๊ฒ ๋ ์ฑ๋ฅ์ด ์ข๊ณ
- embedding ์ฑ๋ฅ์ด ์ค์. ์คํ์์ SBERT๊ฐ ๊ฐ์ฅ ์ข์๋ค๊ณ
- DnDํ์ต๋ฐ์ดํฐ๋ ๋ง์๊ฒ ์ข๋ค๊ณ
Personal note. input text ์ฃผ๊ณ LoRA matrix ์ซ์๋ก ๋ฑ๊ฒ ํ์ตํ ๋ชจ๋ธ ํ๋ ์ ๋ฝ์๋์ผ๋ฉด = DnD, ๊ทธ ๋ชจ๋ธ์ ์ํ๋ input ์๋ง ์ ์ํด์ ์คฌ๋๋ ๊ฝค ๊ทธ๋ด๋ฏํ weight matrix๋ฝ์์ฃผ๋๋ผ ๋น์ฐํ ๋งค task๋ง๋ค LoRA ํ๋ํ๋๊ฒ๋ณด๋ค์ผ ์ธ๊ณ ์ฑ๋ฅ๋ ๋น์ทํ๊ฑฐ๋ ๋ ์ํ๊ธฐ๋~์ ํ๋ฆ์ ๋๋ค. ๋จ์ํ๊ฒ ์จ๋จน์ ๋ฐ๊ฐ ๋ง์๋ณด์ด๊ณ , ๊ฐ ๋๋ฉ์ธ์ ์๋ง ๊ฐ๋ค ์ฐ๋ฉด ๋ ์ฌ์ด ํ์ฉ์ด ๋ ๊ฒ ๊ฐ์ต๋๋ค. ์๋ฅผ ๋ค๋ฉด personalization์์ ์ด๋ค๋๊ฐ..