Post Archive
2026
Mar 2026
Honeybee: Locality-enhanced Projector for Multimodal LLM
MLLM์์ vision encoder์ LLM ์ฌ์ด์ visual projector๊ฐ ํต์ฌ ๋ณ๋ชฉ์์ ๋ถ์, visual token flexibility์ locality preservation์ ๋์์ ๋ง์กฑํ๋ Honeybee projector๋ฅผ ์ ์
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
Long-horizon LLM agents์ context window bottleneck ํด๊ฒฐ์ ์ํด, ๊ตฌ์กฐํ๋ ๋ฉ๋ชจ๋ฆฌ ์์คํ Indexed Experience Memory์ ์ด๋ฅผ ํ์ตํ๋ MemexRL ์ ์
MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks
multi-session + interdependent subtask ํ๊ฒฝ์ Memory-Agent-Environment loop๋ฅผ ํ๊ฐํ๋ benchmark๋ฅผ ์ ์ํ๊ณ , ๊ธฐ์กด memory system์ด ์ค์ agentic setting์์ ๋งค์ฐ ์ทจ์ฝํจ์ ์ค์ฆ
Feb 2026
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
memory consolidation๊ณผ reasoning์ ํ๋์ internal state๋ก ํตํฉํ๋๋ก RL ํ์ตํ์ฌ long-horizon task์์ ๊ฑฐ์ ์ผ์ ํ context size ์ ์งํ๋ฉฐ ์ฑ๋ฅ ํฅ์
SimpleMem: Efficient Lifelong Memory for LLM Agents
LLM Agent์ LTM์ semantic lossless compression์ผ๋ก ์ฌ์ ์ํ๊ณ , write-time ๊ตฌ์กฐํยทonline synthesisยทintent-aware retrieval๋ก ์ฑ๋ฅ๊ณผ ํ ํฐ ํจ์จ(์ต๋ 30๋ฐฐ)์ ๊ฐ์ ํ ๋ฉ๋ชจ๋ฆฌ ํ๋ ์์ํฌ ์ ์
Jan 2026
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs
Personalization์ ๋จ์ํ user-aligned bias๊ฐ ์๋๋ผ factual representation๊ณผ entangle๋๋ฉด์ ์ฒด๊ณ์ ์ธ hallucination์ ๋ง๋ ๋ค๋ ์ฌ์ค์ representation level์์ ๋ฐํ๊ณ inference-time์์ ์ด๋ฅผ ์ ...
Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents
long-horizon task์์ ๋ฐ์ํ๋ planning ์คํจ์ ํต์ฌ ์์ธ์ entanglement๋ก ๊ท์ , ์ด๋ฅผ subtask ๋จ์๋ก ๋ถ๋ฆฌ๋ DAG ๊ธฐ๋ฐ planning์ผ๋ก ํด๊ฒฐํ๋ ๊ฒ์ ์ ์, ์ฑ๋ฅ ํฅ์ ๋ฐ ํ ํฐ ์ ๊ฐ์์ ์ ์
Learning User Preferences Through Interaction for Long-Term Collaboration
multi-turn interaction์์ user์ explicit preference๋ฅผ memory๋ก ํ์ตํ๋ฉด ๋จ์ Recall-based memory๋ณด๋ค long-term collaboration(์ฑ๊ณต๋ฅ /ํจ์จ/user burden)์ด ์ ์ํ๊ฒ ๊ฐ์ ๋๋ค.
WAIT, WAIT, WAITโฆ Why Do Reasoning Models Loop?
Reasoning ๋ชจ๋ธ์ looping์ decoding artifact๋ง์ด ์๋๋ผ learning errors๊ฐ greedy/low-temp์์ ์ฆํญ๋๋ฉฐ ๋ฐ์, temperature๋ loop๋ฅผ ์ค์ด์ง๋ง ๊ทผ๋ณธ ์์ธ์ ๊ณ ์น์ง ๋ชปํด ๋ถํ์ํ๊ฒ ๊ธด CoT๋ฅผ ์์ฑํ๋ค.
2025
Dec 2025
A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models
LLM์์์ ๊ฐ์ธํ/๋ค์์ ์ ํธ ์ ๋ ฌ์ training/test-time, ์ฌ์ฉ์ ๋ชจ๋ธ๋ง ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ผ๋ก ์ฒด๊ณํ, ํ๊ฐ ๋ฐ ํ์ฅ์ฑ ์ธก๋ฉด์ ๊ตฌ์กฐ์ ํ๊ณ ํ์ธ
Adaptation of Agentic AI
agentic AI ์ฐ๊ตฌ์์ adaptation์ด๋ผ๋ ๊ฐ๋ ์ด ํผ์ฉ๋์ด์๊ณ , ์ฒด๊ณ์ ์ธ ์์คํ ์์ค ์ค๊ณ ๋ฐ ๋น๊ต๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด adaptation ๋์(agent vs tool)๊ณผ adaptation์ ์ ๋ํ๋ ์ ํธ๋ฅผ ๊ตฌ๋ถํ๋ ๋ถ๋ฅ ์ฒด๊ณ ์ ์
Budget-Aware Tool-Use Enables Effective Agent Scaling
ํด ํธ์ถ ์์ฐ์ ๋จ์ํ ๋๋ฆฌ๋ ๊ฒ๋ง์ผ๋ก๋ ์์ด์ ํธ ์ฑ๋ฅ์ด ์ค์ผ์ผ(TTS)๋์ง ์์ผ๋ฉฐ, ์์ฐ์ ๋ช ์์ ์ผ๋ก ์ธ์ํ๋๋ก ํ๋ Budget Tracker์ BATS ํ๋ ์์ํฌ๋ฅผ ๋์ ํ๋ฉด ๋น์ฉ ๋๋น ์ฑ๋ฅ ์ค์ผ์ผ๋ง๊ณผ Pareto frontier๊ฐ ํฌ๊ฒ ๊ฐ์ ๋๋ค.
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
์์ 8B ์ค์ผ์คํธ๋ ์ดํฐ ๋ชจ๋ธ์ด ๋ค์ํ ํด๊ณผ LLM์ RL๋ก ํตํฉ์ ์ผ๋ก ์กฐ์ ํ์ฌ ์ ํ๋/๋น์ฉ/latency/์ ์ ์ ํธ๋ฅผ ๋์์ ์ต์ ํํ๋ ํด ๊ธฐ๋ฐ ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ์ ์. GPT-5๋ณด๋ค ์ธ๊ณ ์ฑ๋ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋ค.
Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory
LLM Agent๊ฐ test-time์ ๊ณผ๊ฑฐ ๊ฒฝํ์ ์ค์ค๋ก ์งํ์ํค๋ฉฐ ํ์ตํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ streaming benchmark Evo-Memory ์ ์, ExpRAG / ReMem ๊ฐ์ baseline์ ์ ์ํ์ฌ ๊ฒฝํ ์ฌ์ฌ์ฉ ๊ธฐ๋ฐ ์ฑ๋ฅ ํฅ์์ ๋ํ ๋น๊ต ํ๊ฐ ๊ธฐ๋ฐ ์ ์
Nov 2025
General Agentic Memory via Deep Research
๊ฒฝ๋ memorizer์ full-page store + deep research๋ก Just-In-Time memory ํ๋ ์์ํฌ ์ ์, ๊ธฐ์กด ์ฌ์ ์์ถ (static) ๋ฉ๋ชจ๋ฆฌ ๋๋น ๋ค์ํ long-term + multi-hop ์ฑ๋ฅ ํฅ์ ๋ฌ์ฑ
Flipping the Dialogue: Training and Evaluating User Language Models
Assistant์ฉ LM์ user์ฒ๋ผ ์ญํ ์ง์ํด ์๋ฎฌ๋ ์ด์ ํ๋ ๊ธฐ์กด ๋ฐฉ์์ ๋ณธ์ง์ ์ผ๋ก ๋นํ์ค์ ์ด๋ฉฐ, ์ค์ human user ํ๋์ ํ์ตํ UserLM์ด ํจ์ฌ ๋ ์์ฐ์ค๋ฌ์ด multi-turn user behavior๋ฅผ ์ฌํํด assistant ์ฑ๋ฅ์ ์ง์ง ํ๊ณ๋ฅผ ๋๋ฌ๋ธ๋ค.
HaluMem: Evaluating Hallucinations in Memory Systems of Agents
Agent memory system์ hallucination์ด ์ด๋(extract > update > QA)์์ ๋ํ๋๋์ง ์ง๋จํ๋ ๋ฒค์น๋งํฌ ์ ์
Oct 2025
Reasoning with Sampling: Your Base Model is Smarter Than You Think
์ถ๊ฐ ํ์ต ์์ด ๋จ์ MCMC ๊ธฐ๋ฐ ์ํ๋ง๋ง์ผ๋ก LLM์ base model์ด RL๋ก post-training๋ ๋ชจ๋ธ ์์ค์ ์ถ๋ก ๋ฅ๋ ฅ ๋ผ ์ ์๋ค.
LightMem: Lightweight and Efficient Memory-Augmented Generation
sensory > topic-aware short-term > sleep-time long-term memory ์ ๋ฐ์ดํธ์ 3๋จ๊ณ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ ์ ์, LongMemEval ์ ํ๋ ํฅ์ ๋ฐ token/API call/runtime ๋น์ฉ ๋ํญ ์ถ์ ํ์ธ
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
generation > reflection > curation ๋ชจ๋์ ๊ฑฐ์ณ incremental delta updates๋ง ๋ฐ์ํ๋ prompt refinement framework ACE ์ ์
Sep 2025
DiaTool-DPO: Direct Preference Optimization for Controlling Conversation Flow in Tool-Augmented LLMs
Tool-augmented dialogue๋ฅผ 5๊ฐ hidden state๋ฅผ MDP๋ก formulateํ๊ณ , chosen-rejected trajectory pair ์๋ ์์ฑํด DPO-style objective๋ก ํ์ต. slot-filling/tool rejection ๋ฅ๋ ฅ ๋ํญ ํฅ์
Facilitating Multi-Turn Function Calling for LLMs via Compositional Instruction Tuning
Task - Function์ผ๋ก ์ฐ๊ฒฐํ๋ Planning ๊ธฐ๋ฐ์ multi-turn* Function Calling ํ๋ ์์ํฌ BUTTON ์ ์
Am I Me or You? State-of-the-Art Dialogue Models Cannot Maintain an Identity
์ต์ ๋ํ ๋ชจ๋ธ์ ์ข ์ข ์ ์ฒด์ฑ์ ์ ์งํ์ง ๋ชปํ๋ฉฐ, expanded attention & classifier-based reranking์ผ๋ก ์ค๋ฅ๋ฅผ 65% ์ค์ผ ์ ์์ผ๋ ์ฌ์ ํ challenge์ด๋ค.
MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs
multi-turn setup์์์ ๋์ 4๊ฐ์ง (Instruction Retention, Inference Memory, Reliable Versioned Editing, Self-Coherence)๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ ์ ์, ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ์ฑ๊ณตํ๋ ์ต์ SOTA ๋ชจ๋ธ๋ค๋ ์ ์...
GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning
RL(GRPO)์ 2๊ฐ์ง constrained reward(RPA + CAF) ์ ์ฉํ์ฌ GraphRAG agent ํ์ต > ๊ฒ์ํ ๋ ์ ๋ ฅ์ผ๋ก triplet๊ณผ ์์ฐ์ด ํ์ด๋ธ๋ฆฌ๋ ํ์ฉํ์ฌ multi-hop QA์์ ํฐ ์ฑ๋ฅ ํฅ์ ํ์ธ
Aug 2025
SSRL: Self-Search Reinforcement Learning
๊ฒ์์์ง์ด๋ ๋ค๋ฅธ LLM ๋ฑ ์ธ๋ถ tool ์์ด ๊ฒ์์ Full-simulationํด์ RL โ real-world๋ก ์ ์ด ๊ฐ๋ฅํ self-search ๋ชจ๋ธ ๊ตฌ์ถ
Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models
policy์ reference-based RM (verifyRM) ์ ๋์์ updateํ๋ RL framework COOPER ์ ์. reward hacking์ ๋ง๊ธฐ ์ํด rule-based positives์ LLM-generated negatives๋ฅผ ํ์ฉํ contras...
TO CHAT OR TASK: a Multi-turn Dialogue Generation Framework for Task-Oriented Dialogue Systems
chitchat๊ณผ task request๊ฐ ๊ฒฐํฉ๋ multi-turn dialogue ์๋ ๊ตฌ์ถํ๋ framework CTFUSION ์ ์, ์ด๋ฅผ ํ์ฉํด ๋ง๋ IVSR-CTF ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ ICS ๋ชจ๋ธ์ด ๊ธฐ๋ฅ ์๋ ๋ถ๋ฅ์์ LLM์ ๋ฅ๊ฐํ๋ฉฐ ๊ทธ ํจ๊ณผ ํ์ธ
Persona Vectors: Monitoring and Controlling Character Traits in Language Models
LLM fine-tuning ์ ํ ํน์ ๊ทธ ๊ณผ์ ์์ personality trait shifts(์์ฒจ, ํ๊ฐ, ์ ์) ํ์ง/์์ธก/์ํํ๊ธฐ ์ํด persona vector๋ฅผ ์๋์ผ๋ก ์ถ์ถํ๊ณ ์ ์ฉํ๋ ๋ฐฉ๋ฒ ์ ์
Jul 2025
RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback
ํด๋ต์ ์ ํ์ฑ ๋ฐ ๊ฐ์ ๊ธฐ์ฌ ํผ๋๋ฐฑ์ ๋ชจ๋ ํ๊ฐํ๋ dual-reward RL-trained critic model์ ๋์ ํ RefCritic ์ ์, ์๋ฆฌ ์ถ๋ก ๊ณผ์ ์์ ํฐ ์ฑ๋ฅ ํฅ์
Exploring Persona Sentiment Sensitivity in Personalized Dialogue Generation
LLM์ persona์ sensitivity์ ๋งค์ฐ ๋ฏผ๊ฐํ์ฌ ๋ถ์ ์ persona๋ ์ผ๊ด์ฑ ์๋ ๋ํ๋ฅผ, ๊ธ์ ์ persona๋ ๋ ์ํํ๊ณ ์ง ๋์ ์ํธ์์ฉ์ ํ๊ธฐ ๋๋ฌธ์, robustness ๊ฐ์ ์ ์ํด polarity-aware ์์ฑ ์ ๋ต ์ ์
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
SFT๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๊ธฐํ๋ค๋ฉด, RL์ Rule-based text/vision reasoning ๋ชจ๋์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฐฐ์ด๋ค.
MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents
multi-scenario (participation & observation) + multi-level (factual & reflective) ๋ฉ๋ชจ๋ฆฌ ์ ํ ํตํฉ, multi-metric evaluation๋ฅผ ์ฌ์ฉํ๋ LLM-based agent์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ธ M...
Jun 2025
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights
prompt๋ฅผ input์ผ๋ก, LoRA-tuend ํ๋ผ๋ฏธํฐ๋ฅผ output์ผ๋ก ํ์ฌ SFTํ๋ ๋ชจ๋ธ DnD ์ ์. DnD๋ฅผ ํ ๋ฒ ํ์ต ํด๋๋ฉด task๋ง๋ค ์ถ๊ฐ ํ์ต ์์ด๋ task-specific LoRA weight๋ฅผ ๋ง๋ค ์ ์๋ค.
LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
ํ๋ จํ ๋ ๋ณธ context length๋ฅผ ๋์ด์๋ Diffusion-based LLM์ "local perception" ๋๋ถ์ ์์ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ LongLLaDA ์ ์. NTK ๊ธฐ๋ฐ RoPE extrapolation์ผ๋ก Diffusion-based LLM์ input le...
Dynamic Epistemic Friction in Dialogue
๋ํ์์ belief์ ํต์ ์ฐ๊ตฌ๋ค์ ๊ฐ์ ์ฒ๋ผ '๋งค๋๋ฝ๊ฒ' ์ ๋ฐ์ดํธ ๋์ง ์์ผ๋ฏ๋ก, ์๋ก์ด ์ ๋ณด์ ๋ํ ์์ฉ ์ ํญ(epistemic friction)์ ์ ๋ํ/๋ฒกํฐํํ์ฌ ๋ชจ๋ธ๋งํ๋ belief ๋ณํ ๋ชจ๋ธ๋ง ์ ์
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
LRM์ด thinkํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ฌ๋, ๋ณต์ก๋๊ฐ ๋์ผ๋ฉด ์คํจํ๊ฑฐ๋ ์ถ๋ก ๋ ๋นํจ์จ์ ์ผ๋ก(=๋) ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์, ์ง์ ํ ์ผ๋ฐํ ์ถ๋ก ์ฑ๋ฅ์ ๋ถ์กฑํ๋ค.
CONFETTI: Conversational Function-Calling Evaluation Through Turn-Level Interactions
multi-turn dialogue์์ LLM Function Calling์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ CONFETTI ์ ์. ํ์ฌ ๋ชจ๋ธ๋ค์ ์ฌ์ ํ ๋ณต์กํ ์ฐ์์/๊ธด ์ปจํ ์คํธ/๋ํ API ์ ํ์ ํ๊ณ๊ฐ ์์์ ํ์ธ.
May 2025
ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents
LLM-based agent์ reasoning, conversation, action ๊ธฐ๋ฅ์ ํตํฉ, ๋ํํ ํ๊ฒฝ์์ ์ญ๋์ /ํ์ ์ /context-awareํ task-solving์ ๊ฐ๋ฅํ๊ฒ ํ๋ ReSpAct ํ๋ ์์ํฌ ์ ์
A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts
gist memory์ interactive look-up์ ์ฉํ์ฌ LLM์ด ์ฌ๋์ฒ๋ผ ํ์ํ ๋ถ๋ถ๋ง ๋ค์ ๊ฒ์ํ๋ ๋ฑ์ ๋ฐฉ์์ผ๋ก ์ต๋ 20๋ฐฐ ๋ ๊ธด context๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ prompting ์์คํ ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ๋ก ์ ์
Apr 2025
TTRL: Test-Time Reinforcement Learning
test ๋ฐ์ดํฐ๋ง์ผ๋ก majority-voting์ผ๋ก reward ์ถ์ , ์ด๋ฅผ ํตํด RL ์๋ํ๋ ์ ์ TTRL์ดย reasoning ์ฑ๋ฅ์ x2~x3๊น์ง ๋์ด์ฌ๋ฆด ์ ์๋ค
Reasoning Models Can Be Effective Without Thinking
reasoning ์์ด reasoning ์ฑ๋ฅ ๋ด๊ธฐ - ํ๋กฌํํธ๋ง ๋ฐ๊ฟ์ ์งง๊ฒ ์ฌ๋ฌ ๋ต๋ณ ์์ฑ์ํค๋๊ฒ ๊ธด CoT๋ณด๋ค ๋์ ์ ์๋ค.
Concise Reasoning via Reinforcement Learning
RL๋ก ํ์ต๋ LLM์ด ๋ถํ์ํ๊ฒ ๊ธด ์ถ๋ก ์ ์์ฑํ์ง๋ง, 2-phrase RL๋ก ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ๊ฐ๊ฒฐํ ์ถ๋ก ์ ์ํฌ ์ ์๋ค.
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
Meta info. Authors: Bang Liu, Xinfeng Li, Jiayi Zhang, Jinlin Wang, Tanjin He, Sirui Hong, Hongzhang Liu, Shaokun Zhang, Kaitao Song, Kunlun Zhu, Y...
Mar 2025
Reasoning to Learn from Latent Thoughts
LLM์ bootstrapping์ผ๋ก ๊ตฌ์กฐํ๋ internal reasoning representation(์ฌ๊ธฐ์๋ Token)์ธ latent thoughts ์์ฑ์ ํ์ตํ์ฌ reasoning ability ํฅ์ ๊ฐ๋ฅ์ฑ ์ ์
Scaling Laws of Synthetic Data for Language Models
SYNTHLLM ๋ฐฉ์์ผ๋ก ์์ฑํ ํฉ์ฑ๋ฐ์ดํฐ๋ LLM finetuning์ ๋ํด ์์ธก ๊ฐ๋ฅํ๊ณ ํจ๊ณผ์ ์ผ๋ก scale ๋๊ณ , ์์ ํ scaling law์ ๋ฐ๋ผ natural data ๋ถ์กฑ์ ๋ํ ํ์ฅ๊ฐ๋ฅํ ์๋ฃจ์ ์ด ๋๋ค๊ณ ์ฃผ์ฅ
A-MEM: Agentic Memory for LLM Agents
LLM-based long-term memory๋ฅผ ์ํ ๊ธฐ์ต ์์คํ A-MEM ์ ์
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding
MLLMs๊ฐ cognitive visual reasoning ํ๋๋ก ํ์ตํ๋ DeepPerception ์ ์+ Knowledge-Intensive Visual Grounding task ์๊ฐ (+ KVG-Bench ๊ณต๊ฐ)
Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning
PbRL์ ์ํ ์ ๋์ ์ ํธ๊ธฐ๋ฐ ์ต์ ํ ๋ฐฉ๋ฒ๋ก APPO ์ ์
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents
ํ์ ์ /๊ฒฝ์์ ์ํฉ์์ ์์ด์ ํธ๋ผ๋ฆฌ ์ํธ์์ฉํ๋ ์์คํ ํ๊ฐ์ ๋ํ ๋ฒค์น๋งํฌย MARBLEย ์ ์
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
์คํ์์ค ๋ค๊ตญ์ด LLM Babel ์๋ฆฌ์ฆ ๊ณต๊ฐ
Chain of Draft: Thinking Faster by Writing Less
ํ์์ ์ธ ์ค๊ฐ ์ถ๋ก ๋ง ์ต์ํ์ผ๋ก ์์ฑ, ํ ํฐ ์ฌ์ฉ๊ณผ ์ถ๋ก ์๊ฐ์ ํฌ๊ฒ ์ค์ด๋ ํ๋กฌํํ ๋ฐฉ์ CoD ์ ์
Feb 2025
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
LRMs์ด overthinkingํ๊ฒ ๋๋ฉด agentic ํ๊ฒฝ๊ณผ ์ ๋๋ก ์ํธ์์ฉํ์ง ๋ชปํ๋ Reasoning-Action Dilemma๊ฐ ๋ฐ์๋๊ณ , ์ด๋ ์ฑ๋ฅ ํ๋ฝ์ ์ด๋ํ๋ค๋ ๊ฒฐ๊ณผ ๋ณด๊ณ
LIMO - Less is More for Reasoning
์์ง๋ง ์ข์ ๋ฐ์ดํฐ๋ง์ผ๋ก ์๋ฆฌ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ํค๊ธฐ = ๋ชจ๋ธ์ด ์ด๋ฏธ ์๊ณ ์๋ ๊ฑธ ์ ๋์ง์ด๋ด๋ ๊ฒ์ด ์ค์ํ๋ค.
The Differences Between Direct Alignment Algorithms are a Blur
Direct Alignment Algorithms (DAAs)์ ๊ตฌ์กฐ์ ์ฐจ์ด ๋ถ์, RL ์์ด๋ DPO ์์ค์ ์ฑ๋ฅ ๋ฌ์ฑ ๊ฐ๋ฅ์ฑ ์์ฌ
Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge
์ฌ์ ์ ํ๊ฐ ๊ธฐ์ค์ ์ ๊ณตํ์ง ์๊ณ , ์์ฒด์ ์ผ๋ก ํ๊ฐ ๊ณํ-์คํ-ํ๋จ์ ๋ถ๋ฆฌํ์ฌ ์ํํ๋ Self-training loop์ thinking-llm-as-a-judge framework ์ ์, ์ ์ ๋ฐ์ดํฐ๋ก๋ SOTA ์ฑ๋ฅ๋ฌ์ฑ
Jan 2025
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
o1-like LLMs์ด ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ํ ๋ ๋ถํ์ํ๊ฒ ์ฌ๊ณ ํ๋ฆ์ ์์ฃผ ๋ณ๊ฒฝํ๋ Underthinking ํ์ ๋ถ์
The Hyperfitting Phenomenon: Sharpening and Stabilizing LLMs for Open-Ended Text Generation
LLM์ ์์ ์ฌ์ด์ฆ ๋ฐ์ดํฐ์ overfitting์ํค๋๊ฒ ์คํ๋ ค generation ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ค.
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training
Multi-turn ํ๊ฒฝ์์ LLM self-reflection & correction ๊ฐํ frameworkย Agent-Rย ์ ์
The GAN is dead; long live the GAN! A Modern GAN Baseline
ํ์ต์ด ๋ถ์์ ํ GAN์ 1) Loss ์์ 2) ์ต์ architecture ์ ์ฉํ์ฌ SOTA
Slow Perception: Letโs Perceive Geometric Figures Step-by-step
๊ธฐํ ๋ฌธ์ ํ์ด์ ์์ด์ ๋ชจ๋ธ์ด ์ฒ์ฒํ ๋ณด๊ฒ ํ๋๊ฒ ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค.
2024
Dec 2024
Alignment Faking in Large Language Models
alignment learning์ค์ LLM์ objective๋ฅผ ๋ฐ๋ฅด๋ ์ฒ ํ์ง๋ง, ์ฌ์ค์ ์๋ pretraining์์๋ถํฐ ๊ฐ๊ณ ์๋ ์ ํธ(์๊ธฐ ์ ํธ)๋ฅผ ์๊ธฐ ์ซ๊ธฐ ๋๋ฌธ์, training์ค์๋ง alignment๋ ์ฒ ์์ฅํ๋ Alignment Faking ๋ฐ์ ํ์์ ๋ํ ์ฐ๊ตฌ
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
Repeated Sampling์ด LLM ์ฑ๋ฅ์์ coverage ์ธก๋ฉด์ ํจ์ฉ์ด ๋งค์ฐ ํฌ๊ณ , ์๋ verification์ด ๊ฐ๋ฅํ ๊ฒฝ์ฐ ์ ํ๋๊น์ง ํฌ๊ฒ ํฅ์์ํจ๋ค.
Machine Unlearning Doesnโt Do What You Think: Lessons for Generative AI Policy, Research, and Practice
unlearning์ด genAI๋ฅผ ํต์ ํ ์ ์๋ ๋ฒ์ฉ solution์ด ๋ชป๋๋ค
The FACTS Grounding Leaderboard: Benchmarking LLMsโ Ability to Ground Responses to Long-Form Input
long input์ ๋ํ response์ ์ฌ์ค์ฑ ํ๊ฐ ๋ฒค์น๋งํฌ ์ ์. ์ต๋ 32K token์ ์ ๋ ฅ ์ฒ๋ฆฌ, ์๋ ํ๊ฐ ํ๋ ์์ํฌ ๊ณต๊ฐ
LLM Evaluators Recognize and Favor Their Own Generations
LLM์ ์๊ธฐ๊ฐ ๋ง๋ ๊ฒฐ๊ณผ๋ฅผ ์ ํธํ๋ค๋ ๊ธฐ์กด ์ฃผ์ฅ์ ๋ํ ์ฌ์ธต ๋ ผ์ (๊ฒฐ๋ก : ์ค์ ๊ทธ๋ ๋ค)
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLMโs Reasoning Capability
์ค๋ฅ ์ถ๋ก ์ด ๋ฐ์ํ๋ ๊ณผ์ ์ ์ค์ ์ญํ (์์ธ)์ ํ๋ ํ ํฐ (critical token)์ ์๋ณํ์ฌ ์ด ํ ํฐ์ ๋ชจ๋ธ ์ถ๋ก ๊ฐ์ ์ ์ ์ฉ(cDPO)ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์
Reverse Thinking Makes LLMs Stronger Reasoners
LLM์ด '์ญ๋ฐ์'์ ํ์ตํ๋๋ก ํ๋ จํ๋ฉด ์์, ์ํ, ๋ ผ๋ฆฌ์ ์ถ๋ก ๊ฐ์ task ์ฑ๋ฅ ํฅ์์ ํฐ ๋์. x10๋งํผ์ forward training(standard finetuning)๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ค๊ณ ์ฃผ์ฅ.
Nov 2024
Counterfactual Generation from Language Models
LM intervention์ ์ํฅ ์ ๋ํ ์๋
Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation
Divide-and-Conquer ์ ๋ต์ ๊ธฐ๋ฅ์ ํฉ์(functional consensus)๋ฅผ ์ ๋ชฉํ CodeGen framework FUNCODER ์ ์
Questioning the Survey Responses of Large Language Models
labeled ์๋ต์ ์ ํํ๊ฒ ํ๋ ๋ฌธ์ (=survey)์์, ๊ทธ ์์ ๋ฌด์์๋ก ์ฃผ๋ฉด ์๋ต๋ ๊ฒฐ๊ตญ ๋ฌด์์์ ๊ฐ๊น๋๋ผ
Detecting Training Data of Large Language Models via Expectation Maximization
Expectation-Maximization ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๋ฉค๋ฒ์ญ ์ ์์ prefix ์ ์๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ ๋ฐ์ดํธํ์ฌ ๋ ๋์ ๋ฉค๋ฒ์ญ ์ถ๋ก ์ ์ํํ๋ ์๋ก์ด LLM์ฉ MIA ๋ฐฉ์ EM-MIA ์ ์
CRAB: Constraint Back-translation Improves Complex Instruction Following of Large Language Models
์ ์ฝ์กฐ๊ฑด์ ์ฌ์์ฑ (backtranslation) ์ํค๋ฉด ์ ์ฝ์กฐ๊ฑด์ ๋ ์ ๋ฐ๋ฅด๋๋ผ
Oct 2024
Direct Multi-Turn Preference Optimization for Language Agents
Multi-turn ์์ RL Objectives๋ฅผ ์ง์ optimizeํ๋ ์์คํจ์์ Direct Multi-Turn Preference Optimization (DMPO) ์ ์
Inference Scaling for Long-Context Retrieval Augmented Generation
LM์ RAG inference ์ฑ๋ฅ ํฅ์์ ์ํ scaling ์ ๋ต์ ์ ์ํ๊ณ , ์ ํจ ์ปจํ ์คํธ ๊ธธ์ด์ ๊ท๋ชจ์ RAG ์ฑ๋ฅ ๊ฐ์ ์ ํ์ ์ธ ๊ด๊ณ๊ฐ ์์์ ํ์ธ
Real-time Fake News from Adversarial Feedback
LLM์ fake news๋ฅผ ๋ ์ ์์ฑํ๊ฒ ํ๋ ๋ฐฉ๋ฒ. ํ์ต ์ดํ ๋ฐ์๋๋ ์ฌ๊ฑด์ fake news ํ์ง๋ฅผ ์ํด, adversarial iterative fake news ์์ฑ ํ์ดํ๋ผ์ธ ์ ์
MoEE: Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
MoE LLM์ router weight๋ฅผ ํ์ฉํ๋ฉด ๋ณ๋ ์ถ๊ฐ ํ์ต ์์ด decoder-style LLM์์๋ ๊ด์ฐฎ์ representation (embedding) ๋ฝ์ ์ ์๋ค.
LC-LLM RAG: Long-Context LLMs Meet RAG
LC-LLM์ RAG์์ ์ธ ๋, (1) context ์์๋ฅผ ์ ์ฃผ๊ณ (2) RAG ๋๋์ ํ๋์์ผ์ฃผ๊ณ (3) ๋ช ์์ ์ผ๋ก relevant ์ฌ๋ถ๋ฅผ ํ๋จํ๋๋ก reasoning step ์ฃผ๋ฉด ๋ ์ํ๋ค.
Differential Transformer
Q/K๋ฅผ ๊ฐ๊ฐ ๋ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด 2๊ฐ์ softmax attention map๊ฐ ์ฐจ์ด๋ฅผ ๊ณ์ฐ, relevant context์ ๋ํ attention์ ํค์ฐ๊ณ ๋ ธ์ด์ฆ๋ ์ ๊ฑฐํ๋ ๋ฐฉ์์ transformers ๋ณํ ์ ์, hallucination ๊ฐ์
Selective Attention Improves Transformer
attention ์ฐ์ฐ์์ ํ๋ผ๋ฏธํฐ ๋ณ๊ฒฝ ์์ด, ์์ฑ๋ token์ด ๋ค๋ฅธ token์ด ๋์ด์ ํ์ ์๋ค๊ณ ๊ฒฐ์ ํ ์ ์๋๋ก ์ฒ๋ฆฌ, ๋ฏธ๋ ์์ ์์๋ ํด๋น token์ด ๋ถํ์ํ๋ค๊ณ ํ๋จํ๋ token๋ค์ ๋ํ attention์ ์ค์ด๋ ๋ฐฉ๋ฒ์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๊ณ์ฐ ๋น์ฉ์ ...
Sep 2024
Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement
instance level๋ก ๊ด์ฐฎ์ ๋ฐ์ดํฐ๋ง ๊ณจ๋ผ ํ์ตํ๊ธฐ๋ณด๋ค, k-means clustering ํ์ฉํ Diversity-Centric Data Selection์ด LLM finetuning์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ํฅ์์ ์ ์ํ๋ค.
Dialogue Ontology Relation Extraction via Constrained Chain-of-Thought Decoding
LLM-based Dialogue Ontology (DST key-value pair) ๊ตฌ์ถ์ ์ํ CCoT-decoding Relation Extraction ์ ์
Knowing When to Ask - Bridging Large Language Models and Data
Data Commons (knowledge Graph)๋ฅผ ํ์ฉํ์ฌ LLM ์๋ต์ ์ฌ์ค์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํฅ์์์ผ LLM๊ณผ ์ค์ ๋ฐ์ดํฐ ๊ฐ์ ๊ฒฉ์ฐจ ํด์ํ๋ DataGemma ์๊ฐ
Theory, Analysis, and Best Practices for Sigmoid Self-Attention
Softmax๋ฅผ Sigmoid์ ์์ bias (sequence length๊ธฐ๋ฐ)๋ก ๋์ฒดํ๋ ๋ฑ์ ๋ฐฉ์์ผ๋ก attention ์ฐ์ฐ ์๋๋ฅผ 18%๊ฐ๋ ํฅ์์ํจ FLASHSIGMOID ์ ์
Configurable Foundation Models: Building LLMs from a Modular Perspective
LLM์ ์ธ๊ฐ์ ๋์ ๊ฐ์ด ๊ธฐ๋ฅ์ ๋ชจ๋๋ก ์ ๊ทผํ์๋ ๊ด์ ์ ์ (brick ๋จ์๋ก ๋ถํด)๊ณผ ๊ฒฝํ์ ์คํ ๊ฒฐ๊ณผ ๋ณด๊ณ
Pandoraโs Box or Aladdinโs Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
LLM์ RAG ์ํฉ์์ ๋ค์ํ Noise๋ฅผ ๊ตฌ๋ถํ๊ณ ๋ถ์. ์ ์ตํ Noise์ ๊ฒฝ์ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ๊ฒ์ ํ์ธ. ๋ฒค์น๋งํฌ NoiserBench๋ฅผ ์ ์ํ์ฌ LLM์ Noise ๋์ ํ๊ฐ ๋ฐ ์ ์ตํ noise๋ ํ์ฉํ๊ณ ํด๋ก์ด noise๋ ์ค์ด๋ ๋ฐฉ๋ฒ ์ ์.
Safety Layers of Aligned Large Language Models: The Key to LLM Security
๋ค์ํ Aligned LLM์ ๋ด๋ถ ํ๋ผ๋ฏธํฐ์ safety layer๊ฐ ์กด์ฌํ๋ ๊ฒ์ ํ์ธ. safety layer๋ ์ ์์ ์ธ ์ฌ์ฉ์ ์ง์๋ฅผ ์๋ณํ๊ณ ๋ ๊ฑฐ๋ถํ๋ ์ญํ ์ ์ํ. ์ด๋ฅผ ๋ฐํ์ผ๋ก safety๋ฅผ ์ ์งํ๋ Finetuning ๋ฐฉ๋ฒ๋ก SPPFT ์ ์.
Text2SQL is Not Enough: Unifying AI and Databases with TAG
LM๊ณผ RDB๊ฐ interaction์ ํตํฉ ๋ฐ ์ผ๋ฐํํ๋ Table-Augmented Generation(TAG) ์ ์
Aug 2024
Planning Like Human: A Dual-process Framework for Dialogue Planning
์ต์ํ ์ํฉ์ ์ฒ๋ฆฌํ๋ intuitive (fast) ์ ์ฑ ๋ชจ๋ธ๊ณผ ์๋ก์ด ์๋๋ฆฌ์ค๋ฅผ ์ํ analytical (slow)์ ์ ์ฑ ๋ชจ๋ธ์ ์ํธ ๋ณด์์ ์ผ๋ก ์ฌ์ฉํ๋ ์ด์ค dialogue planning ํ๋ ์์ํฌ ์ ์
To Code, or Not To Code? Exploring Impact of Code in Pre-training
์ฌ์ ํ์ต๋ Code๋ฅผ ๋ณด๋ฉด ์ ๋ง ์ข์๊ฐ?๋ฅผ ์คํ์ผ๋ก ๊ฒฝํ์ ๊ฒ์ฆ
The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models
Counterfactural input์ ๊ฐ์ญ์ ์ถ๊ฐํ๋ ๋ฐฉ๋ฒ์ผ๋ก faithfulness ์ธก์ ํ ๋ LM output ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ๋ Correlational Counterfactural Test(CCT) ์ ์
Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability
๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ ํฌ๊ณ ํ์ต ์๊ฐ์ด ๊ธธ์๋ก hallucination์ด ๋ ๋ฐ์ํ๋ ๊ฑด ๋ง์ง๋ง,ย ์ด๋ฅผ 5%์ดํ์ ๋ฎ์ ์์ค์ผ๋ก ์ค์ด๋ ค๋ฉด (์ผ๋ฐ์ ์ผ๋ก ์๋ ค์ง scaling law๋ณด๋ค) ํจ์ฌ ๋ ํฐ ๋ชจ๋ธ๊ณผ ๋ ๋ง์ ์ปดํจํ ์์์ด ํ์ํ๋ค.
Having Beer after Prayer? Measuring Cultural Bias in Large Language Models
์๋-์๊ตฌ๋ฌธํ๊ฐ ๋์กฐ๋๋ entity์ natural occurring prompt ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ CAMeL์ ์ ์ํ๊ณ , ์ด๋ฅผ ํตํด ์ฌ๋ก์ฐ๊ตฌํ ๊ฒฐ๊ณผ LLM์ด ์๊ตฌ๋ฌธํ๊ถ entity์ ํธํฅ๋์ด ์์์ ๋ํ ์ฐ๋ ค
Adaptive Retrieval-Augmented Generation for Conversational Systems
์ฃผ์ด์ง ๋ํ์์ ์ ํ์ ์ธ๋ถ ์ง์์ ์ฆ๊ฐ์ด ํ์ํ์ง ์ฌ๋ถ๋ฅผ ์ ํ์ ์ผ๋ก ๊ฒฐ์ ํ๋ ๋งค์ปค๋์ฆ ์ ์
Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
(1) RAG vs. Long-context LLM์ ๋ํด, ์์๋ง ์ถฉ๋ถํ๋ค๋ฉด ๊ฒฐ๊ณผ์ ์ผ๋ก๋ LC LLM์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ผ๋, (2) ๋น์ฉ ์ธก๋ฉด์ ํจ์จ์ ์ํด RAG๋ก routingํ๋ approach, Self-Route ์ ์
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
๋ค์ํ ๋ฌธ์ ์์ฑ + QA pair ๊ตฌ์ฑํ์ฌ ๋ค์ํ ์๋๋ฆฌ์ค์์ LLM์ ์ง์ ์ฌ์ฉ ๋ฅ๋ ฅ ํ๊ฐํ๋ Framework ์ ์
Word Translation Without Parallel Data
(token) Embedding Alignment ๋ฅผ ํตํ x-lingual translation ์ฑ๋ฅ ํฅ์
Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost
๋จ์ํ๊ฒ prompt์ ๊ธธ์ด ์ ํ์ ๊ฑธ์ด๋ ์ฑ๋ฅ์ ๋ณ ์ํฅ์ด ์๊ฐ๋ฉด์ ํจ์จ์ ์ถ๋ก ๊ฐ๋ฅ
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
LM (Gemma 2) interpretability๋ฅผ ์ํ Gemma Scope suite ๊ณต๊ฐ์ ๋ฐ๋ฅธ technical Report
Zero-Shot Cross-Domain Dialogue State Tracking via Dual Low-Rank Adaptation
multi-layer๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ transformer ๊ณ์ด ๋ชจ๋ธ์์ prompt๊ฐ ๋ค์ชฝ์ผ๋ก ๊ฐ์๋ก ์ํ์ง๋ ๋ฌธ์ ๋ฅผ ์ํํ๋ DualLoRA ์ ์
Jul 2024
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders
๊ธฐ์กด vanilla ReLU๋ฅผ jumpReLU๋ผ๋ ๋น์ฐ์ activation์ผ๋ก ๋์ฒดํ์ฌ ์๋ก์ด SAE (sparse autoencodesr) SOTA, ๋น์ฐ์์ ์ธ activation ์ฌ์ฉํ์ง๋ง straight-through estimator๋ก ํจ๊ณผ์ ์ผ๋ก ํ์ต
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
์ด์ ๊ณต๊ฐํ๋ ๋ชจ๋ธ(Chat QA 1.5)์ LLaMA3-70B์ context length ํ์ฅํ๋ฉด์ instruction following / RAG capability ํฅ์์ํค๋ ๋ฐฉ๋ฒ ์ ์
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
(1) ์ฌ๋ฌ ๊ธธ์ด์ interval (2) ๋ค์ํ depth range๋ฅผ ๊ฐ์ง (3) ์ ์ง์ ์ผ๋ก ์ด๋ ค์์ง๋ (4) 2 ์ธ์ด(์๋ฌธ/์ค๋ฌธ)์ long context ๋ฅ๋ ฅ์ ํ๊ฐํ๋ NeedleBench ์ ์ ๋ฐ ๋ค์ํ ๋ชจ๋ธ๋ก ํ๊ฐ ๊ฒฐ๊ณผ ๋ฆฌํฌํธ
Enhancing HNSW Index for Real-Time Updates: Addressing Unreachable Points and Performance Degradation
unreachable points phenomenon์ ์ํํ๋ HNSW ๊ธฐ๋ฐ์ MN-RU(Mutual Neighbor-Replaced Update) ์๊ณ ๋ฆฌ์ฆ ์ ์
RouteLLM: Learning to Route LLMs with Preference Data
๋น์ฉ ์ ๊ฐ์ ์ํ LLM routing ๋ฐฉ๋ฒ ์ ์
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
๊ฒ์ ๋จ์๊ฐ ๊ธด ๊ฒฝ์ฐ ์ถ์ถ๋๋ ๋จ์ ์๋ฅผ ๋ํญ ์ค์ด๊ธฐ ์ํ long retriever + long reader์ ์
Jun 2024
Be like a Goldfish, Donโt Memorize! Mitigating Memorization in Generative LLMs
causal language modeling objective ๋์ Goldfish Loss ์ ์, ์๊ธฐ๋๋ก ์์ฑํด๋ด๋ ๋ฐฉ์ ์ํ
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries
LLM์ด ๋ด๋ถ์ง์ ํจ์ฑํ๊ณ ์ธ๋ถ์ง์(RAG context)๋ง ์ฌ์ฉํ๋ ๋ฐ์ ๊ฐํ ํธํฅ์ด ์๋ค๋ ์ฌ์ค์ ๊ธฐ๊ณ์ ์ผ๋ก(?) ์ถ์
Multi-Head RAG: Solving Multi-Aspect Problems with LLMs
multi-head attention layer๋ฅผ ํ์ฉ, ์ง๊ด์ ์ธ multi-doc RAG ๋ฐ knowledge integration๋ฅผ ์ํ retriever ์ฐ๊ตฌ
SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales
์๊ธฐ ๋ฐ์ฑ์ (?) ๊ทผ๊ฑฐ์ ๋ค์ค ์ถ๋ก chain์ผ๋ก LLM์์ ์ ๋ขฐ๋ ๋ณด์ ์ค๋ฅ๋ฅผ 30% ์ค์ธ๋ค
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
Claude3-sonet์ ์ค๊ฐ layer์์ ๋์จ Residual stream๋ก Sparse Auto-encoder (SAE) ํ์ต, SAE์ ๊ทธ feature vector ํ์ฉํ์ฌ ํด์ ๊ฐ๋ฅํ ์์ค์ ํน์ฑ ํ์ธ๊ฐ๋ฅ.
May 2024
Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models
LLM์๊ฒ ํ์ต ๋ ๋ ํ ํฐ ์๋ ๊ฐ์ง๊ธฐ์ ์ ์
Better & Faster Large Language Models via Multi-token Prediction
ํ ๋ฒ์ 1๊ฐ๊ฐ ์๋ multi-token prediction์ ํ์ตํ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ๋ ์ข๋ค๊ณ . 4-token prediction์ ํ์ตํ LM์ด ๋ฐฐ์น๊ฐ ํฐ ๊ฒฝ์ฐ์๋ ์ต๋ 3๋ฐฐ ์ถ๋ก ์๋ ํฅ์ ๊ฐ๋ฅ.
Apr 2024
Retrieval Head Mechanistically Explains Long-Context Factuality
ํน์ attention head๊ฐ retrieval์ ๋ด๋นํ๋ค
Chinchilla Scaling: A replication attempt
Chinchilla scaling law ์ฌํ์ด ์ ์๋๋ค
Scaling Laws for Reward Model Overoptimization
RM์ผ๋ก Policy model์ ํ์ตํ๋ฉด ํ์ตํ ์๋ก real (human) preference์ ๊ฒฉ์ฐจ๊ฐ ๋ฒ์ด์ง๋ overoptimization์ด (๋ฐ๋์) ๋ฐ์๋๋ฉฐ, ์ด ํ์์ ๋๋ฌ์ ๋ฆ์ถ๋(?) ๋ฐ์๋ RM์ ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๋๊ฒ ์ ์ํ ์ํฅ์ ๋ผ์น๋ ๊ฒ์ผ๋ก ๋ณด์.
Label Supervised LLaMA Finetuning
decoder ๊ตฌ์กฐ์ LLMs๋ก classification SFT
ReALM: Reference Resolution As Language Modeling
Pipeline style๋ก reference resolution์ ๋ํด finetune๋ ์์ ๋ชจ๋ธ(ReALM)๋ก ํด๊ฒฐ ์๋
Mar 2024
Social Learning: Towards Collaborative Learning with Large Language Models
Social Learning์ผ๋ก๋ถํฐ ์ฐฉ์, LLM(Teacher)์ด ๋ค๋ฅธ AI๋ชจ๋ธ(Students)์ ๊ฐ๋ฅด์น๋ ๊ตฌ์กฐ ์ ์, ์ฑ๋ฅ๋ฉด์์ ์ฐจ์ด ์์ด ์์ ์ฑ ์ฆ๊ฐ
LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression
prompt compression์ token classification์ผ๋ก formulate, encoder-based compressor ํ์ต ์ ์ (Data Distillation)
RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems
RAG์ ๋ค์ํ setting ์๋์ ์ต์ ๋ํ ๋ถ์ (retrieverย type,ย readerย model(=Generator),ย contextย selection๋ฑ์ ๋ชจ๋ ๊ณ ๋ ค)
Is Cosine-Similarity of Embeddings Really About Similarity?
cosine-similarity๋ฅผ ์๋ฏธ์ ์ ์ฌ๋๋ฅผ ์ธก์ ํ๋ ์ฒ๋๋ก ๋งน์ ํ์ง๋ ๋ง์์ผ ํ๋ค.
Do Large Language Model Understand Multi-Intent Spoken Language ?
SLU(Spoken Language Understanding)์ ๋ํ LLM ํ์ฉ ์ฐ๊ตฌ๋ฅผ ์ํ LM-MixATIS, LM-MixSNIPS ๋ฒค์น๋งํฌ ๋ฐ metric ์ ์
Self-Discover: Large Language Models Self-Compose Reasoning Structures
๋ธ์ด ์ฌ๋ฌ reasoning techniques(CoT, critical thinking, ...) ์ค์์ ํ๋๋ฅผ ์ค์ค๋ก ์ ํํ์ฌ task๋ณ๋ก ์ ํฉํ ์ถ๋ก ์ ๋ต์ ๊ตฌ์ฑํ๋๋ก ํ๋ ํ๋ ์์ํฌ ์ ์. BBH์์ ๋จ์ CoT๋ณด๋ค ์ฑ๋ฅ์ด ์ข๊ณ CoT Self-consistency๋ณด๋ค๋ ์ถ...
Feb 2024
Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance
LLM์๊ฒ ์ ๋นํ ์์๋ฐ๋ฅด๊ฒ ์ฟผ๋ฆฌํ๋ฉด ๋ ์ข์ ์ฑ๋ฅ์ด ๋์จ๋ค๋ empirical study.
Generative Representational Instruction Tuning
text embedding๊ณผ generation ํตํฉํ๋ Generative Representational Instruction Tuning ์ ์. ๋จ์ผ๋ชจ๋ธ์ธ GritLM์ embedding(MTEB) ๋ฐ generation task(BBH...)์์ ๋ชจ๋ SoTA๋ฅผ ๋ฌ์ฑ.
LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models
LM๋ค์ ๋์ด๋๊ณ ํ๊ฐํ ์ ์๋๋ก ๋์์ธ๋ ์๊ฐํ ํด ์ ์
Unsupervised Evaluation of Code LLMs with Round-Trip Correctness
RTC(round-trip correctness)๋ผ๋ ๊ฐ๋จํ ๋ฐฉ์์ผ๋ก LM์ ์ฝ๋ ๋ฅ๋ ฅ ํ๊ฐ
Chain-of-Thought Reasoning Without Prompting
LLM์ decoding์ greedy decoding์์ top-k decoding์ผ๋ก ๋ฐ๊พธ๋ฉด prompt ์์ด๋ CoT reasoning ์ ๋ ๊ฐ๋ฅ
Specialized Language Models with Cheap Inference from Limited Domain Data
1) generic pretraining cost 2) domain-specific pretraining cost 3) inference cost 4) size of specific domain training set ๋ค๊ฐ์ง ์ ์ฝ์กฐ๊ฑด ํ์์ ๊ฐ์ฅ ํจ์จ์ ์ธ ํ์ต์ ๋ํ emperic...
The boundary of neural network trainability is fractal
๋ณต์กํ ๋ฐ๋ณต ํจํด์ธ Fractal ํจํด์ด AI ํ์ต ํ๋ก์ธ์ค(ํ์ดํผํ๋ผ๋ฏธํฐ)๋ฅผ ์ ์ดํ๋ setting์ ๋ํ๋๋ค.
Orion-14B: Open-source Multilingual Large Language Models
ํ๊ตญ์ด ํฌํจ ๋์์์๊ถ ์ธ์ด๋ฅผ ์ค์ฌ์ผ๋ก ํ์ต๋ multilingual model ๊ณต๊ฐ. Vocab ์ฌ์ด์ฆ๋ย ์๋์ ์ด์ง๋งย ๊ฒฐ์ฝ ์์ง ์๊ณ , ์ค์ ์ฑ๋ฅ๋ ํ๋ฅญํ ์์ค.
The Power of Noise: Redefining Retrieval for RAG Systems
RAG์์ Retrieval ์ ์ง์คํ์ฌ, document์ prompt์ ์ฐ๊ด์ฑ, prompt์์ document์ ์์น์ ์ ๋ฑ ๋ค์ํ ์์๋ฅผ ํ๊ฐ.
Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens
โ-n๊ณผ ์กฐ๋จ์ token corpus๋ก n-gram ์ฟผ๋ฆฌ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ย infini-gramย ๊ณต๊ฐ
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models
๊ธฐ์กด RAG ๋ฒค์น๋งํฌ๋ ๋ฒ์์ ๋ค์์ฑ์ด ์ ํ๋์ด ์๊ณ , ๊ฒ์ ์์(retriever)์ ์ธ๋ถ KB์ ์ํฅ์ ๊ณ ๋ คํ์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์๋ค๊ณ ์ง์ ํ๋ฉฐ, RAG Application์ ๋ฒ์๋ฅผ CRUD๋ก ๋ถ๋ฅํ๊ณ ๊ฐ๊ฐ์ ๋ํ ํ๊ฐ task์ ๋ฐ์ดํฐ์ ๊ณต๊ฐ. (์ค๊ตญ์ด)
Jan 2024
Corrective Retrieval Augmented Generation
confidence score, web search, knowledge refinement๋ก ์๋ชป ์ฐพ์์จ, ํน์ ์ต์ ์ด ์๋ ๊ฒฐ๊ณผ๋ฅผ self-correctionํ์ฌ ๋ชจ๋ธ ์์ฑ ๊ฒฐ๊ณผ์ hallucination ๊ฐ์
Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text
๋ณ๋ ํ์ต์ด๋ ํ๋ ์์ด ํ ์์ pretrained LLM์ผ๋ก ๊ฐ๋จํ ๊ณ์ฐ๋ง ํ๋ฉด machine generated text๋ฅผ ํ์งํด๋ด๋ ๋ฐฉ๋ฒ๋ก Binoculars ์ ์. ์์ฑ๋ sample 90% ์ด์ ํ์ง(pic1)
SliceGPT: Compress Large Language Models by Deleting Rows and Columns
weight matrtix๋ฅผ ๋ ๊ณ ๋ฐ๋์ ์์ ํ๋ ฌ๋ก slicingํ๋ ๋ฐฉ์์ ์๋ก์ด post training sparsification ์ ์. ์ฑ๋ฅ drop์ 1%~10% ๋ด๋ก ๋ฐฉ์ดํ๋ฉด์ ํ๋ผ๋ฏธํฐ(embedding ํฌํจ)๋ ์ต๋ 25%๊น์ง ์ ๊ฑฐ ๊ฐ๋ฅ.
Knowledge Fusion of Large Language Models
๊ธฐ์กด์ ๊ฐ๊ธฐ ๋ค๋ฅธ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉด์ ๋ค์ํ ๋ฐฉ์์ผ๋ก ํ์ต๋ ์ฌ๋ฌ LLMs(soucre LLMs)์ ๋ณํฉํด์ ๋ strongํ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ(pic1)์ผ๋ก, ์ฌ๋ฌ LLM์ ์ง์์ ์ธ๋ถํํ์ฌ ๊ทธ๋ค์ capability๋ฅผ ์๋ก์ด LLM(target LLM)์ผ๋ก transferํ๋ ๋ฐฉ๋ฒ์ ...
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability
standard LM training์ ํน์ text๋ฅผ ์์ฑํ๋๋ก ํ์ต์ํจ๋ค๊ณ ํด์ ๊ทธ text์ implies(ํจ์)์ ํด๋นํ๋ text๋ค์ probability๊ฐ ๋์์ง๋ ๊ฒ์ ์๋. factuality ์ธก๋ฉด์์ ๊ด๋ จ fact set (text)์๋ ๋์ ํ๋ฅ ์ assignํ๊ธฐ...
DocLLM: A layout-aware generative language model for multimodal document understanding
multi-modal LLM์์ ์ฐฉ์, LM์ด text์ (์ ํํ๋ document ๋ด์์ ) ์์น์ ๋ณด๋ฅผ input์ผ๋ก ๋ฐ๋๋ก ํ์ฌ internal structured document understanding ๋ฌธ์ ํด๊ฒฐ
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
LLM๋ ๊ธฐ๋ง์ (deceptive)์ผ ์ ์๋ค. LLM์ด ๋์ฑ ์ผ๊ด๋๊ณ ๋ ผ๋ฆฌ์ ์ธ ๊ธฐ๋ง์ ์์ฑํ๋๋ก ํ์ต ๊ฐ๋ฅํ๊ณ , ์ด๋ standard๋ก ์๋ ค์ง safety ํ์ต ๋ฐฉ์์ผ๋ก๋ ์ฒ๋ฆฌ๋์ง ๋ชปํจ.
Self-Rewarding Language Models
๋ฐ๋ณต์ ์ธ DPO ํ๋ จ์ผ๋ก ์ฌ๋์ด ์ค๊ณํ reward model์ด ์๋,ย LLM-as-a-Judgeย mechanism์ ์ฌ์ฉ, LM์ด ์์จ์ ์ผ๋ก instruction following & reward modeling > refine ๋ฐ๋ณต.
ChatQA: Building GPT-4 Level Conversational QA Models
LLM zero-shot์์ ๋ํ๊ผด QA ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์๋ 2-stage instruction tuning ๋ฐฉ๋ฒ ์ ์.
Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers
ODQA์์ ๋ชจ๋ธ response๋ฅผ ๋ ์ธ๋ถํ๋ ์์ค์ผ๋ก ๋๋ ์ ์ ํ์ฑ ๋ฐ ์ ๋ณด์ฑ ์ธก๋ฉด์์ ํ๊ฐํ ์ ์๋ GRANOLA QA ๋ฒค์น๋งํฌ ๊ณต๊ฐ ๋ฐ ๊ทธ ์ธ๋ถํ๋ ์ ๋ณด์ฑ์ ํ๋ณดํ๊ธฐ ์ํ ๋์ฝ๋ฉ ๋ฐฉ์ DRAG ์ ์
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
LM์ด Self-Talk๋ฅผ ํตํด training ๋ฐ์ดํฐ๋ฅผ ์์ฑ>์ ์ >SFT์ ํ์ฉ (bootstrapping). ์ด ๊ณผ์ ์์ ๋ณ๋ชฉ์ ํด์ํ๊ธฐ ์ํด ๋ํ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ์ธก์ ํ๋ automatic metric ์ ์
Blending is All You Need
์ฌ๋ฌ ๊ฐ์ ์์ ๋ชจ๋ธ์ Blendํด์ ํ๋์ ํฐ ๋ชจ๋ธ๊ณผ ๋น์ทํ ํน์ ๋ ๋์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค.
LLaMA Pro: Progressive LLaMA with Block Expansion
์๋ก ์ถ๊ฐํ ๋ธ๋ก์ ๋งค๊ฐ๋ณ์๋ง ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ก ์ ๋ฐ์ดํธํ๋ post-pretraining ๋ฐฉ์์ block expansion์ด domain-specific task์ ํนํ ์ ์ฉํ๋ค๊ณ ์ ์. ์ ์ฒด๋ฅผ finetuningํ ๋ ๋ฐ์๋๋ ๋ง๊ฐ์ด ์ผ์ด๋์ง ์๋๋ค๊ณ . ๋์ผ ๋ฐ์ดํฐ ์ฌ์ฉ์ ์ ์ ...
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
human-annotated data๋ฅผ ๋ ๋ง๋ค์ง ์๋๋ผ๋ weak LLM์ด self-improveํ ์ ์๋ค.
MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining
๋น ๋ฅธ ์ฌ์ ํ์ต์ ์ํ BERT-style encoder์ architecture์ training ๊ธฐ๋ฒ ์๊ฐ.
Improving Text Embeddings with Large Language Models
GPT-3.5, GPT-4๋ฅผ ํ์ฉ, 2-step prompt ์ฌ์ฉํด์ ๋ง๋ synthetic data(94 languages, 500K examples)๋ก decoder-only LLM(Mistral-7B)์ contrastive loss ์ฌ์ฉํด 1-epoch ํ์ต. ์ด unlab...
Making Large Language Models A Better Foundation For Dense Retrieval
Dense Retrieval์ ์ํด LLM adaptation (2-step template ์ ์ฉ)
Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models
Gemini โ GPT-3.5-turbo, Gemini โฒ GPT-4-Turbo
2023
Dec 2023
LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
sLLM(GPT2-small, LLaMA-7B, etc. )์ผ๋ก ํ๋กฌํํธ์์ ๋ถํ์ํ ํ ํฐ์ ์๋ณ>์ ๊ฑฐ(์์ถ), LLM์ ์ฑ๋ฅ ์์ค์ ์ต์ํํ๋ฉด์ ์ต๋ 20๋ฐฐ์ ์์ถ ๋ฌ์ฑ ๊ฐ๋ฅ
Weak-to-strong Generalization: Eliciting Strong Capabilities with Weak Supervision
Naively finetune strong pretrained models on labels generated by a weak model consistently perform better than their weak supervisors.
UltraFastBERT : Exponentially Faster Language Modelling
FFNN์ FFF(Fast FeedForward)๋ก ๋์ฒดํ์ฌ x78์ ์๋ ํฅ์
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
๋น์ทํ ์ฌ์ด์ฆ Transformer ๋๋น 5๋ฐฐ ๋น ๋ฅธ ์ถ๋ก ์๋
Scalable Extraction of Training Data from (Production) Language Models
ChatGPT์ alignment training์ ๊ฒฐ์ ์ผ๋ก๋ถํฐ ChatGPT์ training data๋ฅผ ์ถ์ถํ๋ ๊ธฐ์ ์ ๊ฐ๋ฐ
LLM-Assisted Code Cleaning For Training Accurate Code Generators
Code Generation ๋ชจ๋ธ ํ์ต์ ํ์ต ๋ฐ์ดํฐ=์ฝ๋๋ฅผ ๊ฐ๋ ์ฑ ์ข๊ฒ ๋ฆฌํฉํ ๋งํ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ํจ์ฌ ์ข์์ง๋ค.
Apr 2023
Scaling Transformer to 1M tokens and beyond with RMT
RMT(Recurrent Memory Transformer) retains information across up to 2 million tokens!
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
LLaMA-Adapter, a method for quickly and efficiently fine-tuning LLaMA into an instruction-following model using self-instruct demonstrations, matching Alpaca...
BloombergGPT: A Large Language Model for Finance
A combined pre-training approach for domain-specific and non-domain-specific corpus. It describes the dataset, model configuration, and training procedure fo...
Mar 2023
What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?
Causal decoder-only models trained on an autoregressive language modeling objective(standard FLM objective) exhibit the strongest zero-shot generalization w/...
GPT-4 Technical Report
GPT-4, a large multimodal model with human-level performance on certain difficult professional and academic benchmarks. It outperforms existing LLMs on almos...
Larger language models do in-context learning differently
์ถฉ๋ถํ ํฐ LLM์ ์ฌ์ ํ์ต๊ณผ ๋ฐฐ์ฒ๋๋ label์ด ์ฃผ์ด์ง๋๋ผ๋, ์ฌ์ ํ์ต ๋ด์ฉ์ ๋ฎ์ด๋๊ณ ์๋ก ์ฃผ์ด์ง label๋ก override ํ ์ ์์. ์ด ๋ฟ๋ง ์๋๋ผ ์ถฉ๋ถํ ํฐ LLM์ label์ ์๋ฏธ์ ์ผ๋ก ๊ด๋ จ ์๋ label๋ก ๋์ฒดํด๋ ์ฑ๋ฅ์ด ๋์ด.
Feb 2023
LLaMA : Open and Efficient Foundation Language Models
10๋ฐฐ ๋ ์ ์ ํ๋ผ๋ฏธํฐ(13B)๋ก GPT-3 175B ๋๋น ๊ฑฐ์ ๋ชจ๋ ๋ฒค์น๋งํฌ์์ ๋ ๋์ ์ฑ๋ฅ ๋ฌ์ฑ.
Jan 2023
REPLUG: Retrieval-Augmented Black-Box Language Models
์ธ์ด ๋ชจ๋ธ์ ๋ธ๋๋ฐ์ค๋ก ์ทจ๊ธํ๊ณ ๊ฒ์ ๊ตฌ์ฑ์์๋ฅผ ์ ์ฌ์ ์ผ๋ก ์กฐ์ ๊ฐ๋ฅํ ๋ชจ๋๋ก ์ถ๊ฐํ๋ ์๋ก์ด retrieval-Augmented LM ํจ๋ฌ๋ค์ ์ ์
Question and Answer Test-Train Overlap in Open-Domain Question Answering Datasets
ODQA์์ ์์ฃผ ์ฌ์ฉํ๋ ๋ฒค์น๋งํฌ NQ์ ๋ํ ๋นํ์ ์๊ฐ์ ๋ด์ ๋ ผ๋ฌธ. ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ train์์ ๋ณธ ๋ด์ฉ์ ์๊ธฐํ๋ ์ญํ ์ ํ ์คํธํ๋ ๊ฒ์ผ๋ก ๋ณด์.