Tags
Tags reflect my interests at the time of writing, so some keywords may be missing.
- activation
- adaptor
- agent
- ai-detection
- alignment-learning
- attention
- benchmark
- classification
- code
- data-selection
- decoding
- dialogue-system
- diffusion
- domain-adaptation
- dpo
- dst
- ensemble
- evaluation
- factuality
- function-calling
- fusion
- gan
- hallucination
- hci
- hypernetwork
- icl
- industry
- interpretability
- knowledge-conflicts
- knowledge-editing
- knowledge-graph
- language-modeling
- llm-as-a-judge
- long-context
- long-horizon
- lrm
- lvlm
- memory
- mia
- mid
- mllm
- moe
- multi-agent
- multi-linguality
- multi-modality
- multi-turn
- odqa
- optimization
- pbrl
- peft
- persona
- personalization
- petl
- planning
- post-training
- ppo
- preference
- projector
- prompt-compression
- prompting
- rag
- reasoning
- reinforcement-learning
- representation-learning
- rl
- sae
- safety
- scaling-laws
- self-improvement
- self-learning
- sft
- synthetic-data
- tableqa
- test-time-scaling
- time-sensitive
- transformers
- translate
- unlearning
- weight-merging
activation 3 posts
Theory, Analysis, and Best Practices for Sigmoid Self-Attention
Softmax๋ฅผ Sigmoid์ ์์ bias (sequence length๊ธฐ๋ฐ)๋ก ๋์ฒดํ๋ ๋ฑ์ ๋ฐฉ์์ผ๋ก attention ์ฐ์ฐ ์๋๋ฅผ 18%๊ฐ๋ ํฅ์์ํจ FLASHSIGMOID ์ ์
Configurable Foundation Models: Building LLMs from a Modular Perspective
LLM์ ์ธ๊ฐ์ ๋์ ๊ฐ์ด ๊ธฐ๋ฅ์ ๋ชจ๋๋ก ์ ๊ทผํ์๋ ๊ด์ ์ ์ (brick ๋จ์๋ก ๋ถํด)๊ณผ ๊ฒฝํ์ ์คํ ๊ฒฐ๊ณผ ๋ณด๊ณ
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders
๊ธฐ์กด vanilla ReLU๋ฅผ jumpReLU๋ผ๋ ๋น์ฐ์ activation์ผ๋ก ๋์ฒดํ์ฌ ์๋ก์ด SAE (sparse autoencodesr) SOTA, ๋น์ฐ์์ ์ธ activation ์ฌ์ฉํ์ง๋ง straight-through estimator๋ก ํจ๊ณผ์ ์ผ๋ก ํ์ต
adaptor 2 posts
Zero-Shot Cross-Domain Dialogue State Tracking via Dual Low-Rank Adaptation
multi-layer๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ transformer ๊ณ์ด ๋ชจ๋ธ์์ prompt๊ฐ ๋ค์ชฝ์ผ๋ก ๊ฐ์๋ก ์ํ์ง๋ ๋ฌธ์ ๋ฅผ ์ํํ๋ DualLoRA ์ ์
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
LLaMA-Adapter, a method for quickly and efficiently fine-tuning LLaMA into an instruction-following model using self-instruct demonstrations, matching Alpaca...
agent 10 posts
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
Long-horizon LLM agents์ context window bottleneck ํด๊ฒฐ์ ์ํด, ๊ตฌ์กฐํ๋ ๋ฉ๋ชจ๋ฆฌ ์์คํ Indexed Experience Memory์ ์ด๋ฅผ ํ์ตํ๋ MemexRL ์ ์
MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks
multi-session + interdependent subtask ํ๊ฒฝ์ Memory-Agent-Environment loop๋ฅผ ํ๊ฐํ๋ benchmark๋ฅผ ์ ์ํ๊ณ , ๊ธฐ์กด memory system์ด ์ค์ agentic setting์์ ๋งค์ฐ ์ทจ์ฝํจ์ ์ค์ฆ
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
memory consolidation๊ณผ reasoning์ ํ๋์ internal state๋ก ํตํฉํ๋๋ก RL ํ์ตํ์ฌ long-horizon task์์ ๊ฑฐ์ ์ผ์ ํ context size ์ ์งํ๋ฉฐ ์ฑ๋ฅ ํฅ์
SimpleMem: Efficient Lifelong Memory for LLM Agents
LLM Agent์ LTM์ semantic lossless compression์ผ๋ก ์ฌ์ ์ํ๊ณ , write-time ๊ตฌ์กฐํยทonline synthesisยทintent-aware retrieval๋ก ์ฑ๋ฅ๊ณผ ํ ํฐ ํจ์จ(์ต๋ 30๋ฐฐ)์ ๊ฐ์ ํ ๋ฉ๋ชจ๋ฆฌ ํ๋ ์์ํฌ ์ ์
Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents
long-horizon task์์ ๋ฐ์ํ๋ planning ์คํจ์ ํต์ฌ ์์ธ์ entanglement๋ก ๊ท์ , ์ด๋ฅผ subtask ๋จ์๋ก ๋ถ๋ฆฌ๋ DAG ๊ธฐ๋ฐ planning์ผ๋ก ํด๊ฒฐํ๋ ๊ฒ์ ์ ์, ์ฑ๋ฅ ํฅ์ ๋ฐ ํ ํฐ ์ ๊ฐ์์ ์ ์
Adaptation of Agentic AI
agentic AI ์ฐ๊ตฌ์์ adaptation์ด๋ผ๋ ๊ฐ๋ ์ด ํผ์ฉ๋์ด์๊ณ , ์ฒด๊ณ์ ์ธ ์์คํ ์์ค ์ค๊ณ ๋ฐ ๋น๊ต๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด adaptation ๋์(agent vs tool)๊ณผ adaptation์ ์ ๋ํ๋ ์ ํธ๋ฅผ ๊ตฌ๋ถํ๋ ๋ถ๋ฅ ์ฒด๊ณ ์ ์
Budget-Aware Tool-Use Enables Effective Agent Scaling
ํด ํธ์ถ ์์ฐ์ ๋จ์ํ ๋๋ฆฌ๋ ๊ฒ๋ง์ผ๋ก๋ ์์ด์ ํธ ์ฑ๋ฅ์ด ์ค์ผ์ผ(TTS)๋์ง ์์ผ๋ฉฐ, ์์ฐ์ ๋ช ์์ ์ผ๋ก ์ธ์ํ๋๋ก ํ๋ Budget Tracker์ BATS ํ๋ ์์ํฌ๋ฅผ ๋์ ํ๋ฉด ๋น์ฉ ๋๋น ์ฑ๋ฅ ์ค์ผ์ผ๋ง๊ณผ Pareto frontier๊ฐ ํฌ๊ฒ ๊ฐ์ ๋๋ค.
ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents
LLM-based agent์ reasoning, conversation, action ๊ธฐ๋ฅ์ ํตํฉ, ๋ํํ ํ๊ฒฝ์์ ์ญ๋์ /ํ์ ์ /context-awareํ task-solving์ ๊ฐ๋ฅํ๊ฒ ํ๋ ReSpAct ํ๋ ์์ํฌ ์ ์
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
Meta info. Authors: Bang Liu, Xinfeng Li, Jiayi Zhang, Jinlin Wang, Tanjin He, Sirui Hong, Hongzhang Liu, Shaokun Zhang, Kaitao Song, Kunlun Zhu, Y...
A-MEM: Agentic Memory for LLM Agents
LLM-based long-term memory๋ฅผ ์ํ ๊ธฐ์ต ์์คํ A-MEM ์ ์
ai-detection 3 posts
Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens
โ-n๊ณผ ์กฐ๋จ์ token corpus๋ก n-gram ์ฟผ๋ฆฌ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ย infini-gramย ๊ณต๊ฐ
Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text
๋ณ๋ ํ์ต์ด๋ ํ๋ ์์ด ํ ์์ pretrained LLM์ผ๋ก ๊ฐ๋จํ ๊ณ์ฐ๋ง ํ๋ฉด machine generated text๋ฅผ ํ์งํด๋ด๋ ๋ฐฉ๋ฒ๋ก Binoculars ์ ์. ์์ฑ๋ sample 90% ์ด์ ํ์ง(pic1)
Scalable Extraction of Training Data from (Production) Language Models
ChatGPT์ alignment training์ ๊ฒฐ์ ์ผ๋ก๋ถํฐ ChatGPT์ training data๋ฅผ ์ถ์ถํ๋ ๊ธฐ์ ์ ๊ฐ๋ฐ
alignment-learning 6 posts
A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models
LLM์์์ ๊ฐ์ธํ/๋ค์์ ์ ํธ ์ ๋ ฌ์ training/test-time, ์ฌ์ฉ์ ๋ชจ๋ธ๋ง ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ผ๋ก ์ฒด๊ณํ, ํ๊ฐ ๋ฐ ํ์ฅ์ฑ ์ธก๋ฉด์ ๊ตฌ์กฐ์ ํ๊ณ ํ์ธ
The Differences Between Direct Alignment Algorithms are a Blur
Direct Alignment Algorithms (DAAs)์ ๊ตฌ์กฐ์ ์ฐจ์ด ๋ถ์, RL ์์ด๋ DPO ์์ค์ ์ฑ๋ฅ ๋ฌ์ฑ ๊ฐ๋ฅ์ฑ ์์ฌ
Alignment Faking in Large Language Models
alignment learning์ค์ LLM์ objective๋ฅผ ๋ฐ๋ฅด๋ ์ฒ ํ์ง๋ง, ์ฌ์ค์ ์๋ pretraining์์๋ถํฐ ๊ฐ๊ณ ์๋ ์ ํธ(์๊ธฐ ์ ํธ)๋ฅผ ์๊ธฐ ์ซ๊ธฐ ๋๋ฌธ์, training์ค์๋ง alignment๋ ์ฒ ์์ฅํ๋ Alignment Faking ๋ฐ์ ํ์์ ๋ํ ์ฐ๊ตฌ
Direct Multi-Turn Preference Optimization for Language Agents
Multi-turn ์์ RL Objectives๋ฅผ ์ง์ optimizeํ๋ ์์คํจ์์ Direct Multi-Turn Preference Optimization (DMPO) ์ ์
Planning Like Human: A Dual-process Framework for Dialogue Planning
์ต์ํ ์ํฉ์ ์ฒ๋ฆฌํ๋ intuitive (fast) ์ ์ฑ ๋ชจ๋ธ๊ณผ ์๋ก์ด ์๋๋ฆฌ์ค๋ฅผ ์ํ analytical (slow)์ ์ ์ฑ ๋ชจ๋ธ์ ์ํธ ๋ณด์์ ์ผ๋ก ์ฌ์ฉํ๋ ์ด์ค dialogue planning ํ๋ ์์ํฌ ์ ์
Scaling Laws for Reward Model Overoptimization
RM์ผ๋ก Policy model์ ํ์ตํ๋ฉด ํ์ตํ ์๋ก real (human) preference์ ๊ฒฉ์ฐจ๊ฐ ๋ฒ์ด์ง๋ overoptimization์ด (๋ฐ๋์) ๋ฐ์๋๋ฉฐ, ์ด ํ์์ ๋๋ฌ์ ๋ฆ์ถ๋(?) ๋ฐ์๋ RM์ ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๋๊ฒ ์ ์ํ ์ํฅ์ ๋ผ์น๋ ๊ฒ์ผ๋ก ๋ณด์.
attention 2 posts
Differential Transformer
Q/K๋ฅผ ๊ฐ๊ฐ ๋ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด 2๊ฐ์ softmax attention map๊ฐ ์ฐจ์ด๋ฅผ ๊ณ์ฐ, relevant context์ ๋ํ attention์ ํค์ฐ๊ณ ๋ ธ์ด์ฆ๋ ์ ๊ฑฐํ๋ ๋ฐฉ์์ transformers ๋ณํ ์ ์, hallucination ๊ฐ์
Selective Attention Improves Transformer
attention ์ฐ์ฐ์์ ํ๋ผ๋ฏธํฐ ๋ณ๊ฒฝ ์์ด, ์์ฑ๋ token์ด ๋ค๋ฅธ token์ด ๋์ด์ ํ์ ์๋ค๊ณ ๊ฒฐ์ ํ ์ ์๋๋ก ์ฒ๋ฆฌ, ๋ฏธ๋ ์์ ์์๋ ํด๋น token์ด ๋ถํ์ํ๋ค๊ณ ํ๋จํ๋ token๋ค์ ๋ํ attention์ ์ค์ด๋ ๋ฐฉ๋ฒ์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๊ณ์ฐ ๋น์ฉ์ ...
benchmark 10 posts
MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks
multi-session + interdependent subtask ํ๊ฒฝ์ Memory-Agent-Environment loop๋ฅผ ํ๊ฐํ๋ benchmark๋ฅผ ์ ์ํ๊ณ , ๊ธฐ์กด memory system์ด ์ค์ agentic setting์์ ๋งค์ฐ ์ทจ์ฝํจ์ ์ค์ฆ
MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs
multi-turn setup์์์ ๋์ 4๊ฐ์ง (Instruction Retention, Inference Memory, Reliable Versioned Editing, Self-Coherence)๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ ์ ์, ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ์ฑ๊ณตํ๋ ์ต์ SOTA ๋ชจ๋ธ๋ค๋ ์ ์...
TO CHAT OR TASK: a Multi-turn Dialogue Generation Framework for Task-Oriented Dialogue Systems
chitchat๊ณผ task request๊ฐ ๊ฒฐํฉ๋ multi-turn dialogue ์๋ ๊ตฌ์ถํ๋ framework CTFUSION ์ ์, ์ด๋ฅผ ํ์ฉํด ๋ง๋ IVSR-CTF ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ ICS ๋ชจ๋ธ์ด ๊ธฐ๋ฅ ์๋ ๋ถ๋ฅ์์ LLM์ ๋ฅ๊ฐํ๋ฉฐ ๊ทธ ํจ๊ณผ ํ์ธ
MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents
multi-scenario (participation & observation) + multi-level (factual & reflective) ๋ฉ๋ชจ๋ฆฌ ์ ํ ํตํฉ, multi-metric evaluation๋ฅผ ์ฌ์ฉํ๋ LLM-based agent์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ธ M...
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding
MLLMs๊ฐ cognitive visual reasoning ํ๋๋ก ํ์ตํ๋ DeepPerception ์ ์+ Knowledge-Intensive Visual Grounding task ์๊ฐ (+ KVG-Bench ๊ณต๊ฐ)
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents
ํ์ ์ /๊ฒฝ์์ ์ํฉ์์ ์์ด์ ํธ๋ผ๋ฆฌ ์ํธ์์ฉํ๋ ์์คํ ํ๊ฐ์ ๋ํ ๋ฒค์น๋งํฌย MARBLEย ์ ์
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
(1) ์ฌ๋ฌ ๊ธธ์ด์ interval (2) ๋ค์ํ depth range๋ฅผ ๊ฐ์ง (3) ์ ์ง์ ์ผ๋ก ์ด๋ ค์์ง๋ (4) 2 ์ธ์ด(์๋ฌธ/์ค๋ฌธ)์ long context ๋ฅ๋ ฅ์ ํ๊ฐํ๋ NeedleBench ์ ์ ๋ฐ ๋ค์ํ ๋ชจ๋ธ๋ก ํ๊ฐ ๊ฒฐ๊ณผ ๋ฆฌํฌํธ
Do Large Language Model Understand Multi-Intent Spoken Language ?
SLU(Spoken Language Understanding)์ ๋ํ LLM ํ์ฉ ์ฐ๊ตฌ๋ฅผ ์ํ LM-MixATIS, LM-MixSNIPS ๋ฒค์น๋งํฌ ๋ฐ metric ์ ์
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models
๊ธฐ์กด RAG ๋ฒค์น๋งํฌ๋ ๋ฒ์์ ๋ค์์ฑ์ด ์ ํ๋์ด ์๊ณ , ๊ฒ์ ์์(retriever)์ ์ธ๋ถ KB์ ์ํฅ์ ๊ณ ๋ คํ์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์๋ค๊ณ ์ง์ ํ๋ฉฐ, RAG Application์ ๋ฒ์๋ฅผ CRUD๋ก ๋ถ๋ฅํ๊ณ ๊ฐ๊ฐ์ ๋ํ ํ๊ฐ task์ ๋ฐ์ดํฐ์ ๊ณต๊ฐ. (์ค๊ตญ์ด)
Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers
ODQA์์ ๋ชจ๋ธ response๋ฅผ ๋ ์ธ๋ถํ๋ ์์ค์ผ๋ก ๋๋ ์ ์ ํ์ฑ ๋ฐ ์ ๋ณด์ฑ ์ธก๋ฉด์์ ํ๊ฐํ ์ ์๋ GRANOLA QA ๋ฒค์น๋งํฌ ๊ณต๊ฐ ๋ฐ ๊ทธ ์ธ๋ถํ๋ ์ ๋ณด์ฑ์ ํ๋ณดํ๊ธฐ ์ํ ๋์ฝ๋ฉ ๋ฐฉ์ DRAG ์ ์
classification 1 posts
Label Supervised LLaMA Finetuning
decoder ๊ตฌ์กฐ์ LLMs๋ก classification SFT
code 5 posts
Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation
Divide-and-Conquer ์ ๋ต์ ๊ธฐ๋ฅ์ ํฉ์(functional consensus)๋ฅผ ์ ๋ชฉํ CodeGen framework FUNCODER ์ ์
Text2SQL is Not Enough: Unifying AI and Databases with TAG
LM๊ณผ RDB๊ฐ interaction์ ํตํฉ ๋ฐ ์ผ๋ฐํํ๋ Table-Augmented Generation(TAG) ์ ์
To Code, or Not To Code? Exploring Impact of Code in Pre-training
์ฌ์ ํ์ต๋ Code๋ฅผ ๋ณด๋ฉด ์ ๋ง ์ข์๊ฐ?๋ฅผ ์คํ์ผ๋ก ๊ฒฝํ์ ๊ฒ์ฆ
Unsupervised Evaluation of Code LLMs with Round-Trip Correctness
RTC(round-trip correctness)๋ผ๋ ๊ฐ๋จํ ๋ฐฉ์์ผ๋ก LM์ ์ฝ๋ ๋ฅ๋ ฅ ํ๊ฐ
LLM-Assisted Code Cleaning For Training Accurate Code Generators
Code Generation ๋ชจ๋ธ ํ์ต์ ํ์ต ๋ฐ์ดํฐ=์ฝ๋๋ฅผ ๊ฐ๋ ์ฑ ์ข๊ฒ ๋ฆฌํฉํ ๋งํ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ํจ์ฌ ์ข์์ง๋ค.
data-selection 1 posts
Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement
instance level๋ก ๊ด์ฐฎ์ ๋ฐ์ดํฐ๋ง ๊ณจ๋ผ ํ์ตํ๊ธฐ๋ณด๋ค, k-means clustering ํ์ฉํ Diversity-Centric Data Selection์ด LLM finetuning์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ํฅ์์ ์ ์ํ๋ค.
decoding 1 posts
WAIT, WAIT, WAITโฆ Why Do Reasoning Models Loop?
Reasoning ๋ชจ๋ธ์ looping์ decoding artifact๋ง์ด ์๋๋ผ learning errors๊ฐ greedy/low-temp์์ ์ฆํญ๋๋ฉฐ ๋ฐ์, temperature๋ loop๋ฅผ ์ค์ด์ง๋ง ๊ทผ๋ณธ ์์ธ์ ๊ณ ์น์ง ๋ชปํด ๋ถํ์ํ๊ฒ ๊ธด CoT๋ฅผ ์์ฑํ๋ค.
dialogue-system 18 posts
Flipping the Dialogue: Training and Evaluating User Language Models
Assistant์ฉ LM์ user์ฒ๋ผ ์ญํ ์ง์ํด ์๋ฎฌ๋ ์ด์ ํ๋ ๊ธฐ์กด ๋ฐฉ์์ ๋ณธ์ง์ ์ผ๋ก ๋นํ์ค์ ์ด๋ฉฐ, ์ค์ human user ํ๋์ ํ์ตํ UserLM์ด ํจ์ฌ ๋ ์์ฐ์ค๋ฌ์ด multi-turn user behavior๋ฅผ ์ฌํํด assistant ์ฑ๋ฅ์ ์ง์ง ํ๊ณ๋ฅผ ๋๋ฌ๋ธ๋ค.
LightMem: Lightweight and Efficient Memory-Augmented Generation
sensory > topic-aware short-term > sleep-time long-term memory ์ ๋ฐ์ดํธ์ 3๋จ๊ณ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ ์ ์, LongMemEval ์ ํ๋ ํฅ์ ๋ฐ token/API call/runtime ๋น์ฉ ๋ํญ ์ถ์ ํ์ธ
DiaTool-DPO: Direct Preference Optimization for Controlling Conversation Flow in Tool-Augmented LLMs
Tool-augmented dialogue๋ฅผ 5๊ฐ hidden state๋ฅผ MDP๋ก formulateํ๊ณ , chosen-rejected trajectory pair ์๋ ์์ฑํด DPO-style objective๋ก ํ์ต. slot-filling/tool rejection ๋ฅ๋ ฅ ๋ํญ ํฅ์
Facilitating Multi-Turn Function Calling for LLMs via Compositional Instruction Tuning
Task - Function์ผ๋ก ์ฐ๊ฒฐํ๋ Planning ๊ธฐ๋ฐ์ multi-turn* Function Calling ํ๋ ์์ํฌ BUTTON ์ ์
Am I Me or You? State-of-the-Art Dialogue Models Cannot Maintain an Identity
์ต์ ๋ํ ๋ชจ๋ธ์ ์ข ์ข ์ ์ฒด์ฑ์ ์ ์งํ์ง ๋ชปํ๋ฉฐ, expanded attention & classifier-based reranking์ผ๋ก ์ค๋ฅ๋ฅผ 65% ์ค์ผ ์ ์์ผ๋ ์ฌ์ ํ challenge์ด๋ค.
TO CHAT OR TASK: a Multi-turn Dialogue Generation Framework for Task-Oriented Dialogue Systems
chitchat๊ณผ task request๊ฐ ๊ฒฐํฉ๋ multi-turn dialogue ์๋ ๊ตฌ์ถํ๋ framework CTFUSION ์ ์, ์ด๋ฅผ ํ์ฉํด ๋ง๋ IVSR-CTF ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ ICS ๋ชจ๋ธ์ด ๊ธฐ๋ฅ ์๋ ๋ถ๋ฅ์์ LLM์ ๋ฅ๊ฐํ๋ฉฐ ๊ทธ ํจ๊ณผ ํ์ธ
Exploring Persona Sentiment Sensitivity in Personalized Dialogue Generation
LLM์ persona์ sensitivity์ ๋งค์ฐ ๋ฏผ๊ฐํ์ฌ ๋ถ์ ์ persona๋ ์ผ๊ด์ฑ ์๋ ๋ํ๋ฅผ, ๊ธ์ ์ persona๋ ๋ ์ํํ๊ณ ์ง ๋์ ์ํธ์์ฉ์ ํ๊ธฐ ๋๋ฌธ์, robustness ๊ฐ์ ์ ์ํด polarity-aware ์์ฑ ์ ๋ต ์ ์
Dynamic Epistemic Friction in Dialogue
๋ํ์์ belief์ ํต์ ์ฐ๊ตฌ๋ค์ ๊ฐ์ ์ฒ๋ผ '๋งค๋๋ฝ๊ฒ' ์ ๋ฐ์ดํธ ๋์ง ์์ผ๋ฏ๋ก, ์๋ก์ด ์ ๋ณด์ ๋ํ ์์ฉ ์ ํญ(epistemic friction)์ ์ ๋ํ/๋ฒกํฐํํ์ฌ ๋ชจ๋ธ๋งํ๋ belief ๋ณํ ๋ชจ๋ธ๋ง ์ ์
CONFETTI: Conversational Function-Calling Evaluation Through Turn-Level Interactions
multi-turn dialogue์์ LLM Function Calling์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ CONFETTI ์ ์. ํ์ฌ ๋ชจ๋ธ๋ค์ ์ฌ์ ํ ๋ณต์กํ ์ฐ์์/๊ธด ์ปจํ ์คํธ/๋ํ API ์ ํ์ ํ๊ณ๊ฐ ์์์ ํ์ธ.
Direct Multi-Turn Preference Optimization for Language Agents
Multi-turn ์์ RL Objectives๋ฅผ ์ง์ optimizeํ๋ ์์คํจ์์ Direct Multi-Turn Preference Optimization (DMPO) ์ ์
Dialogue Ontology Relation Extraction via Constrained Chain-of-Thought Decoding
LLM-based Dialogue Ontology (DST key-value pair) ๊ตฌ์ถ์ ์ํ CCoT-decoding Relation Extraction ์ ์
Planning Like Human: A Dual-process Framework for Dialogue Planning
์ต์ํ ์ํฉ์ ์ฒ๋ฆฌํ๋ intuitive (fast) ์ ์ฑ ๋ชจ๋ธ๊ณผ ์๋ก์ด ์๋๋ฆฌ์ค๋ฅผ ์ํ analytical (slow)์ ์ ์ฑ ๋ชจ๋ธ์ ์ํธ ๋ณด์์ ์ผ๋ก ์ฌ์ฉํ๋ ์ด์ค dialogue planning ํ๋ ์์ํฌ ์ ์
Adaptive Retrieval-Augmented Generation for Conversational Systems
์ฃผ์ด์ง ๋ํ์์ ์ ํ์ ์ธ๋ถ ์ง์์ ์ฆ๊ฐ์ด ํ์ํ์ง ์ฌ๋ถ๋ฅผ ์ ํ์ ์ผ๋ก ๊ฒฐ์ ํ๋ ๋งค์ปค๋์ฆ ์ ์
Zero-Shot Cross-Domain Dialogue State Tracking via Dual Low-Rank Adaptation
multi-layer๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ transformer ๊ณ์ด ๋ชจ๋ธ์์ prompt๊ฐ ๋ค์ชฝ์ผ๋ก ๊ฐ์๋ก ์ํ์ง๋ ๋ฌธ์ ๋ฅผ ์ํํ๋ DualLoRA ์ ์
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
์ด์ ๊ณต๊ฐํ๋ ๋ชจ๋ธ(Chat QA 1.5)์ LLaMA3-70B์ context length ํ์ฅํ๋ฉด์ instruction following / RAG capability ํฅ์์ํค๋ ๋ฐฉ๋ฒ ์ ์
ReALM: Reference Resolution As Language Modeling
Pipeline style๋ก reference resolution์ ๋ํด finetune๋ ์์ ๋ชจ๋ธ(ReALM)๋ก ํด๊ฒฐ ์๋
ChatQA: Building GPT-4 Level Conversational QA Models
LLM zero-shot์์ ๋ํ๊ผด QA ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์๋ 2-stage instruction tuning ๋ฐฉ๋ฒ ์ ์.
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
LM์ด Self-Talk๋ฅผ ํตํด training ๋ฐ์ดํฐ๋ฅผ ์์ฑ>์ ์ >SFT์ ํ์ฉ (bootstrapping). ์ด ๊ณผ์ ์์ ๋ณ๋ชฉ์ ํด์ํ๊ธฐ ์ํด ๋ํ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ์ธก์ ํ๋ automatic metric ์ ์
diffusion 1 posts
LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
ํ๋ จํ ๋ ๋ณธ context length๋ฅผ ๋์ด์๋ Diffusion-based LLM์ "local perception" ๋๋ถ์ ์์ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ LongLLaDA ์ ์. NTK ๊ธฐ๋ฐ RoPE extrapolation์ผ๋ก Diffusion-based LLM์ input le...
domain-adaptation 6 posts
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
๋ค์ํ ๋ฌธ์ ์์ฑ + QA pair ๊ตฌ์ฑํ์ฌ ๋ค์ํ ์๋๋ฆฌ์ค์์ LLM์ ์ง์ ์ฌ์ฉ ๋ฅ๋ ฅ ํ๊ฐํ๋ Framework ์ ์
Do Large Language Model Understand Multi-Intent Spoken Language ?
SLU(Spoken Language Understanding)์ ๋ํ LLM ํ์ฉ ์ฐ๊ตฌ๋ฅผ ์ํ LM-MixATIS, LM-MixSNIPS ๋ฒค์น๋งํฌ ๋ฐ metric ์ ์
Specialized Language Models with Cheap Inference from Limited Domain Data
1) generic pretraining cost 2) domain-specific pretraining cost 3) inference cost 4) size of specific domain training set ๋ค๊ฐ์ง ์ ์ฝ์กฐ๊ฑด ํ์์ ๊ฐ์ฅ ํจ์จ์ ์ธ ํ์ต์ ๋ํ emperic...
DocLLM: A layout-aware generative language model for multimodal document understanding
multi-modal LLM์์ ์ฐฉ์, LM์ด text์ (์ ํํ๋ document ๋ด์์ ) ์์น์ ๋ณด๋ฅผ input์ผ๋ก ๋ฐ๋๋ก ํ์ฌ internal structured document understanding ๋ฌธ์ ํด๊ฒฐ
LLaMA Pro: Progressive LLaMA with Block Expansion
์๋ก ์ถ๊ฐํ ๋ธ๋ก์ ๋งค๊ฐ๋ณ์๋ง ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ก ์ ๋ฐ์ดํธํ๋ post-pretraining ๋ฐฉ์์ block expansion์ด domain-specific task์ ํนํ ์ ์ฉํ๋ค๊ณ ์ ์. ์ ์ฒด๋ฅผ finetuningํ ๋ ๋ฐ์๋๋ ๋ง๊ฐ์ด ์ผ์ด๋์ง ์๋๋ค๊ณ . ๋์ผ ๋ฐ์ดํฐ ์ฌ์ฉ์ ์ ์ ...
BloombergGPT: A Large Language Model for Finance
A combined pre-training approach for domain-specific and non-domain-specific corpus. It describes the dataset, model configuration, and training procedure fo...
dpo 3 posts
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLMโs Reasoning Capability
์ค๋ฅ ์ถ๋ก ์ด ๋ฐ์ํ๋ ๊ณผ์ ์ ์ค์ ์ญํ (์์ธ)์ ํ๋ ํ ํฐ (critical token)์ ์๋ณํ์ฌ ์ด ํ ํฐ์ ๋ชจ๋ธ ์ถ๋ก ๊ฐ์ ์ ์ ์ฉ(cDPO)ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์
CRAB: Constraint Back-translation Improves Complex Instruction Following of Large Language Models
์ ์ฝ์กฐ๊ฑด์ ์ฌ์์ฑ (backtranslation) ์ํค๋ฉด ์ ์ฝ์กฐ๊ฑด์ ๋ ์ ๋ฐ๋ฅด๋๋ผ
Self-Rewarding Language Models
๋ฐ๋ณต์ ์ธ DPO ํ๋ จ์ผ๋ก ์ฌ๋์ด ์ค๊ณํ reward model์ด ์๋,ย LLM-as-a-Judgeย mechanism์ ์ฌ์ฉ, LM์ด ์์จ์ ์ผ๋ก instruction following & reward modeling > refine ๋ฐ๋ณต.
dst 1 posts
Dialogue Ontology Relation Extraction via Constrained Chain-of-Thought Decoding
LLM-based Dialogue Ontology (DST key-value pair) ๊ตฌ์ถ์ ์ํ CCoT-decoding Relation Extraction ์ ์
ensemble 5 posts
Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models
policy์ reference-based RM (verifyRM) ์ ๋์์ updateํ๋ RL framework COOPER ์ ์. reward hacking์ ๋ง๊ธฐ ์ํด rule-based positives์ LLM-generated negatives๋ฅผ ํ์ฉํ contras...
Configurable Foundation Models: Building LLMs from a Modular Perspective
LLM์ ์ธ๊ฐ์ ๋์ ๊ฐ์ด ๊ธฐ๋ฅ์ ๋ชจ๋๋ก ์ ๊ทผํ์๋ ๊ด์ ์ ์ (brick ๋จ์๋ก ๋ถํด)๊ณผ ๊ฒฝํ์ ์คํ ๊ฒฐ๊ณผ ๋ณด๊ณ
RouteLLM: Learning to Route LLMs with Preference Data
๋น์ฉ ์ ๊ฐ์ ์ํ LLM routing ๋ฐฉ๋ฒ ์ ์
Knowledge Fusion of Large Language Models
๊ธฐ์กด์ ๊ฐ๊ธฐ ๋ค๋ฅธ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉด์ ๋ค์ํ ๋ฐฉ์์ผ๋ก ํ์ต๋ ์ฌ๋ฌ LLMs(soucre LLMs)์ ๋ณํฉํด์ ๋ strongํ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ(pic1)์ผ๋ก, ์ฌ๋ฌ LLM์ ์ง์์ ์ธ๋ถํํ์ฌ ๊ทธ๋ค์ capability๋ฅผ ์๋ก์ด LLM(target LLM)์ผ๋ก transferํ๋ ๋ฐฉ๋ฒ์ ...
Blending is All You Need
์ฌ๋ฌ ๊ฐ์ ์์ ๋ชจ๋ธ์ Blendํด์ ํ๋์ ํฐ ๋ชจ๋ธ๊ณผ ๋น์ทํ ํน์ ๋ ๋์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค.
evaluation 8 posts
MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs
multi-turn setup์์์ ๋์ 4๊ฐ์ง (Instruction Retention, Inference Memory, Reliable Versioned Editing, Self-Coherence)๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ ์ ์, ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ์ฑ๊ณตํ๋ ์ต์ SOTA ๋ชจ๋ธ๋ค๋ ์ ์...
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
๋ค์ํ ๋ฌธ์ ์์ฑ + QA pair ๊ตฌ์ฑํ์ฌ ๋ค์ํ ์๋๋ฆฌ์ค์์ LLM์ ์ง์ ์ฌ์ฉ ๋ฅ๋ ฅ ํ๊ฐํ๋ Framework ์ ์
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
(1) ์ฌ๋ฌ ๊ธธ์ด์ interval (2) ๋ค์ํ depth range๋ฅผ ๊ฐ์ง (3) ์ ์ง์ ์ผ๋ก ์ด๋ ค์์ง๋ (4) 2 ์ธ์ด(์๋ฌธ/์ค๋ฌธ)์ long context ๋ฅ๋ ฅ์ ํ๊ฐํ๋ NeedleBench ์ ์ ๋ฐ ๋ค์ํ ๋ชจ๋ธ๋ก ํ๊ฐ ๊ฒฐ๊ณผ ๋ฆฌํฌํธ
LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models
LM๋ค์ ๋์ด๋๊ณ ํ๊ฐํ ์ ์๋๋ก ๋์์ธ๋ ์๊ฐํ ํด ์ ์
Unsupervised Evaluation of Code LLMs with Round-Trip Correctness
RTC(round-trip correctness)๋ผ๋ ๊ฐ๋จํ ๋ฐฉ์์ผ๋ก LM์ ์ฝ๋ ๋ฅ๋ ฅ ํ๊ฐ
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models
๊ธฐ์กด RAG ๋ฒค์น๋งํฌ๋ ๋ฒ์์ ๋ค์์ฑ์ด ์ ํ๋์ด ์๊ณ , ๊ฒ์ ์์(retriever)์ ์ธ๋ถ KB์ ์ํฅ์ ๊ณ ๋ คํ์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์๋ค๊ณ ์ง์ ํ๋ฉฐ, RAG Application์ ๋ฒ์๋ฅผ CRUD๋ก ๋ถ๋ฅํ๊ณ ๊ฐ๊ฐ์ ๋ํ ํ๊ฐ task์ ๋ฐ์ดํฐ์ ๊ณต๊ฐ. (์ค๊ตญ์ด)
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
LM์ด Self-Talk๋ฅผ ํตํด training ๋ฐ์ดํฐ๋ฅผ ์์ฑ>์ ์ >SFT์ ํ์ฉ (bootstrapping). ์ด ๊ณผ์ ์์ ๋ณ๋ชฉ์ ํด์ํ๊ธฐ ์ํด ๋ํ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ์ธก์ ํ๋ automatic metric ์ ์
factuality 5 posts
The FACTS Grounding Leaderboard: Benchmarking LLMsโ Ability to Ground Responses to Long-Form Input
long input์ ๋ํ response์ ์ฌ์ค์ฑ ํ๊ฐ ๋ฒค์น๋งํฌ ์ ์. ์ต๋ 32K token์ ์ ๋ ฅ ์ฒ๋ฆฌ, ์๋ ํ๊ฐ ํ๋ ์์ํฌ ๊ณต๊ฐ
Real-time Fake News from Adversarial Feedback
LLM์ fake news๋ฅผ ๋ ์ ์์ฑํ๊ฒ ํ๋ ๋ฐฉ๋ฒ. ํ์ต ์ดํ ๋ฐ์๋๋ ์ฌ๊ฑด์ fake news ํ์ง๋ฅผ ์ํด, adversarial iterative fake news ์์ฑ ํ์ดํ๋ผ์ธ ์ ์
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability
standard LM training์ ํน์ text๋ฅผ ์์ฑํ๋๋ก ํ์ต์ํจ๋ค๊ณ ํด์ ๊ทธ text์ implies(ํจ์)์ ํด๋นํ๋ text๋ค์ probability๊ฐ ๋์์ง๋ ๊ฒ์ ์๋. factuality ์ธก๋ฉด์์ ๊ด๋ จ fact set (text)์๋ ๋์ ํ๋ฅ ์ assignํ๊ธฐ...
DocLLM: A layout-aware generative language model for multimodal document understanding
multi-modal LLM์์ ์ฐฉ์, LM์ด text์ (์ ํํ๋ document ๋ด์์ ) ์์น์ ๋ณด๋ฅผ input์ผ๋ก ๋ฐ๋๋ก ํ์ฌ internal structured document understanding ๋ฌธ์ ํด๊ฒฐ
Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers
ODQA์์ ๋ชจ๋ธ response๋ฅผ ๋ ์ธ๋ถํ๋ ์์ค์ผ๋ก ๋๋ ์ ์ ํ์ฑ ๋ฐ ์ ๋ณด์ฑ ์ธก๋ฉด์์ ํ๊ฐํ ์ ์๋ GRANOLA QA ๋ฒค์น๋งํฌ ๊ณต๊ฐ ๋ฐ ๊ทธ ์ธ๋ถํ๋ ์ ๋ณด์ฑ์ ํ๋ณดํ๊ธฐ ์ํ ๋์ฝ๋ฉ ๋ฐฉ์ DRAG ์ ์
function-calling 6 posts
Adaptation of Agentic AI
agentic AI ์ฐ๊ตฌ์์ adaptation์ด๋ผ๋ ๊ฐ๋ ์ด ํผ์ฉ๋์ด์๊ณ , ์ฒด๊ณ์ ์ธ ์์คํ ์์ค ์ค๊ณ ๋ฐ ๋น๊ต๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด adaptation ๋์(agent vs tool)๊ณผ adaptation์ ์ ๋ํ๋ ์ ํธ๋ฅผ ๊ตฌ๋ถํ๋ ๋ถ๋ฅ ์ฒด๊ณ ์ ์
Budget-Aware Tool-Use Enables Effective Agent Scaling
ํด ํธ์ถ ์์ฐ์ ๋จ์ํ ๋๋ฆฌ๋ ๊ฒ๋ง์ผ๋ก๋ ์์ด์ ํธ ์ฑ๋ฅ์ด ์ค์ผ์ผ(TTS)๋์ง ์์ผ๋ฉฐ, ์์ฐ์ ๋ช ์์ ์ผ๋ก ์ธ์ํ๋๋ก ํ๋ Budget Tracker์ BATS ํ๋ ์์ํฌ๋ฅผ ๋์ ํ๋ฉด ๋น์ฉ ๋๋น ์ฑ๋ฅ ์ค์ผ์ผ๋ง๊ณผ Pareto frontier๊ฐ ํฌ๊ฒ ๊ฐ์ ๋๋ค.
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
์์ 8B ์ค์ผ์คํธ๋ ์ดํฐ ๋ชจ๋ธ์ด ๋ค์ํ ํด๊ณผ LLM์ RL๋ก ํตํฉ์ ์ผ๋ก ์กฐ์ ํ์ฌ ์ ํ๋/๋น์ฉ/latency/์ ์ ์ ํธ๋ฅผ ๋์์ ์ต์ ํํ๋ ํด ๊ธฐ๋ฐ ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ์ ์. GPT-5๋ณด๋ค ์ธ๊ณ ์ฑ๋ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋ค.
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
generation > reflection > curation ๋ชจ๋์ ๊ฑฐ์ณ incremental delta updates๋ง ๋ฐ์ํ๋ prompt refinement framework ACE ์ ์
DiaTool-DPO: Direct Preference Optimization for Controlling Conversation Flow in Tool-Augmented LLMs
Tool-augmented dialogue๋ฅผ 5๊ฐ hidden state๋ฅผ MDP๋ก formulateํ๊ณ , chosen-rejected trajectory pair ์๋ ์์ฑํด DPO-style objective๋ก ํ์ต. slot-filling/tool rejection ๋ฅ๋ ฅ ๋ํญ ํฅ์
Facilitating Multi-Turn Function Calling for LLMs via Compositional Instruction Tuning
Task - Function์ผ๋ก ์ฐ๊ฒฐํ๋ Planning ๊ธฐ๋ฐ์ multi-turn* Function Calling ํ๋ ์์ํฌ BUTTON ์ ์
fusion 1 posts
Knowledge Fusion of Large Language Models
๊ธฐ์กด์ ๊ฐ๊ธฐ ๋ค๋ฅธ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉด์ ๋ค์ํ ๋ฐฉ์์ผ๋ก ํ์ต๋ ์ฌ๋ฌ LLMs(soucre LLMs)์ ๋ณํฉํด์ ๋ strongํ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ(pic1)์ผ๋ก, ์ฌ๋ฌ LLM์ ์ง์์ ์ธ๋ถํํ์ฌ ๊ทธ๋ค์ capability๋ฅผ ์๋ก์ด LLM(target LLM)์ผ๋ก transferํ๋ ๋ฐฉ๋ฒ์ ...
gan 1 posts
The GAN is dead; long live the GAN! A Modern GAN Baseline
ํ์ต์ด ๋ถ์์ ํ GAN์ 1) Loss ์์ 2) ์ต์ architecture ์ ์ฉํ์ฌ SOTA
hallucination 5 posts
MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs
multi-turn setup์์์ ๋์ 4๊ฐ์ง (Instruction Retention, Inference Memory, Reliable Versioned Editing, Self-Coherence)๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ ์ ์, ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ์ฑ๊ณตํ๋ ์ต์ SOTA ๋ชจ๋ธ๋ค๋ ์ ์...
Knowing When to Ask - Bridging Large Language Models and Data
Data Commons (knowledge Graph)๋ฅผ ํ์ฉํ์ฌ LLM ์๋ต์ ์ฌ์ค์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํฅ์์์ผ LLM๊ณผ ์ค์ ๋ฐ์ดํฐ ๊ฐ์ ๊ฒฉ์ฐจ ํด์ํ๋ DataGemma ์๊ฐ
Pandoraโs Box or Aladdinโs Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
LLM์ RAG ์ํฉ์์ ๋ค์ํ Noise๋ฅผ ๊ตฌ๋ถํ๊ณ ๋ถ์. ์ ์ตํ Noise์ ๊ฒฝ์ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ๊ฒ์ ํ์ธ. ๋ฒค์น๋งํฌ NoiserBench๋ฅผ ์ ์ํ์ฌ LLM์ Noise ๋์ ํ๊ฐ ๋ฐ ์ ์ตํ noise๋ ํ์ฉํ๊ณ ํด๋ก์ด noise๋ ์ค์ด๋ ๋ฐฉ๋ฒ ์ ์.
Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability
๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ ํฌ๊ณ ํ์ต ์๊ฐ์ด ๊ธธ์๋ก hallucination์ด ๋ ๋ฐ์ํ๋ ๊ฑด ๋ง์ง๋ง,ย ์ด๋ฅผ 5%์ดํ์ ๋ฎ์ ์์ค์ผ๋ก ์ค์ด๋ ค๋ฉด (์ผ๋ฐ์ ์ผ๋ก ์๋ ค์ง scaling law๋ณด๋ค) ํจ์ฌ ๋ ํฐ ๋ชจ๋ธ๊ณผ ๋ ๋ง์ ์ปดํจํ ์์์ด ํ์ํ๋ค.
Having Beer after Prayer? Measuring Cultural Bias in Large Language Models
์๋-์๊ตฌ๋ฌธํ๊ฐ ๋์กฐ๋๋ entity์ natural occurring prompt ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ CAMeL์ ์ ์ํ๊ณ , ์ด๋ฅผ ํตํด ์ฌ๋ก์ฐ๊ตฌํ ๊ฒฐ๊ณผ LLM์ด ์๊ตฌ๋ฌธํ๊ถ entity์ ํธํฅ๋์ด ์์์ ๋ํ ์ฐ๋ ค
hci 1 posts
LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models
LM๋ค์ ๋์ด๋๊ณ ํ๊ฐํ ์ ์๋๋ก ๋์์ธ๋ ์๊ฐํ ํด ์ ์
hypernetwork 1 posts
Specialized Language Models with Cheap Inference from Limited Domain Data
1) generic pretraining cost 2) domain-specific pretraining cost 3) inference cost 4) size of specific domain training set ๋ค๊ฐ์ง ์ ์ฝ์กฐ๊ฑด ํ์์ ๊ฐ์ฅ ํจ์จ์ ์ธ ํ์ต์ ๋ํ emperic...
icl 7 posts
Adaptive Retrieval-Augmented Generation for Conversational Systems
์ฃผ์ด์ง ๋ํ์์ ์ ํ์ ์ธ๋ถ ์ง์์ ์ฆ๊ฐ์ด ํ์ํ์ง ์ฌ๋ถ๋ฅผ ์ ํ์ ์ผ๋ก ๊ฒฐ์ ํ๋ ๋งค์ปค๋์ฆ ์ ์
Do Large Language Model Understand Multi-Intent Spoken Language ?
SLU(Spoken Language Understanding)์ ๋ํ LLM ํ์ฉ ์ฐ๊ตฌ๋ฅผ ์ํ LM-MixATIS, LM-MixSNIPS ๋ฒค์น๋งํฌ ๋ฐ metric ์ ์
Self-Discover: Large Language Models Self-Compose Reasoning Structures
๋ธ์ด ์ฌ๋ฌ reasoning techniques(CoT, critical thinking, ...) ์ค์์ ํ๋๋ฅผ ์ค์ค๋ก ์ ํํ์ฌ task๋ณ๋ก ์ ํฉํ ์ถ๋ก ์ ๋ต์ ๊ตฌ์ฑํ๋๋ก ํ๋ ํ๋ ์์ํฌ ์ ์. BBH์์ ๋จ์ CoT๋ณด๋ค ์ฑ๋ฅ์ด ์ข๊ณ CoT Self-consistency๋ณด๋ค๋ ์ถ...
Orion-14B: Open-source Multilingual Large Language Models
ํ๊ตญ์ด ํฌํจ ๋์์์๊ถ ์ธ์ด๋ฅผ ์ค์ฌ์ผ๋ก ํ์ต๋ multilingual model ๊ณต๊ฐ. Vocab ์ฌ์ด์ฆ๋ย ์๋์ ์ด์ง๋งย ๊ฒฐ์ฝ ์์ง ์๊ณ , ์ค์ ์ฑ๋ฅ๋ ํ๋ฅญํ ์์ค.
The Power of Noise: Redefining Retrieval for RAG Systems
RAG์์ Retrieval ์ ์ง์คํ์ฌ, document์ prompt์ ์ฐ๊ด์ฑ, prompt์์ document์ ์์น์ ์ ๋ฑ ๋ค์ํ ์์๋ฅผ ํ๊ฐ.
Corrective Retrieval Augmented Generation
confidence score, web search, knowledge refinement๋ก ์๋ชป ์ฐพ์์จ, ํน์ ์ต์ ์ด ์๋ ๊ฒฐ๊ณผ๋ฅผ self-correctionํ์ฌ ๋ชจ๋ธ ์์ฑ ๊ฒฐ๊ณผ์ hallucination ๊ฐ์
Larger language models do in-context learning differently
์ถฉ๋ถํ ํฐ LLM์ ์ฌ์ ํ์ต๊ณผ ๋ฐฐ์ฒ๋๋ label์ด ์ฃผ์ด์ง๋๋ผ๋, ์ฌ์ ํ์ต ๋ด์ฉ์ ๋ฎ์ด๋๊ณ ์๋ก ์ฃผ์ด์ง label๋ก override ํ ์ ์์. ์ด ๋ฟ๋ง ์๋๋ผ ์ถฉ๋ถํ ํฐ LLM์ label์ ์๋ฏธ์ ์ผ๋ก ๊ด๋ จ ์๋ label๋ก ๋์ฒดํด๋ ์ฑ๋ฅ์ด ๋์ด.
industry 4 posts
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
์ด์ ๊ณต๊ฐํ๋ ๋ชจ๋ธ(Chat QA 1.5)์ LLaMA3-70B์ context length ํ์ฅํ๋ฉด์ instruction following / RAG capability ํฅ์์ํค๋ ๋ฐฉ๋ฒ ์ ์
Enhancing HNSW Index for Real-Time Updates: Addressing Unreachable Points and Performance Degradation
unreachable points phenomenon์ ์ํํ๋ HNSW ๊ธฐ๋ฐ์ MN-RU(Mutual Neighbor-Replaced Update) ์๊ณ ๋ฆฌ์ฆ ์ ์
RouteLLM: Learning to Route LLMs with Preference Data
๋น์ฉ ์ ๊ฐ์ ์ํ LLM routing ๋ฐฉ๋ฒ ์ ์
DocLLM: A layout-aware generative language model for multimodal document understanding
multi-modal LLM์์ ์ฐฉ์, LM์ด text์ (์ ํํ๋ document ๋ด์์ ) ์์น์ ๋ณด๋ฅผ input์ผ๋ก ๋ฐ๋๋ก ํ์ฌ internal structured document understanding ๋ฌธ์ ํด๊ฒฐ
interpretability 6 posts
Configurable Foundation Models: Building LLMs from a Modular Perspective
LLM์ ์ธ๊ฐ์ ๋์ ๊ฐ์ด ๊ธฐ๋ฅ์ ๋ชจ๋๋ก ์ ๊ทผํ์๋ ๊ด์ ์ ์ (brick ๋จ์๋ก ๋ถํด)๊ณผ ๊ฒฝํ์ ์คํ ๊ฒฐ๊ณผ ๋ณด๊ณ
Safety Layers of Aligned Large Language Models: The Key to LLM Security
๋ค์ํ Aligned LLM์ ๋ด๋ถ ํ๋ผ๋ฏธํฐ์ safety layer๊ฐ ์กด์ฌํ๋ ๊ฒ์ ํ์ธ. safety layer๋ ์ ์์ ์ธ ์ฌ์ฉ์ ์ง์๋ฅผ ์๋ณํ๊ณ ๋ ๊ฑฐ๋ถํ๋ ์ญํ ์ ์ํ. ์ด๋ฅผ ๋ฐํ์ผ๋ก safety๋ฅผ ์ ์งํ๋ Finetuning ๋ฐฉ๋ฒ๋ก SPPFT ์ ์.
The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models
Counterfactural input์ ๊ฐ์ญ์ ์ถ๊ฐํ๋ ๋ฐฉ๋ฒ์ผ๋ก faithfulness ์ธก์ ํ ๋ LM output ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ๋ Correlational Counterfactural Test(CCT) ์ ์
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
LM (Gemma 2) interpretability๋ฅผ ์ํ Gemma Scope suite ๊ณต๊ฐ์ ๋ฐ๋ฅธ technical Report
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders
๊ธฐ์กด vanilla ReLU๋ฅผ jumpReLU๋ผ๋ ๋น์ฐ์ activation์ผ๋ก ๋์ฒดํ์ฌ ์๋ก์ด SAE (sparse autoencodesr) SOTA, ๋น์ฐ์์ ์ธ activation ์ฌ์ฉํ์ง๋ง straight-through estimator๋ก ํจ๊ณผ์ ์ผ๋ก ํ์ต
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
Claude3-sonet์ ์ค๊ฐ layer์์ ๋์จ Residual stream๋ก Sparse Auto-encoder (SAE) ํ์ต, SAE์ ๊ทธ feature vector ํ์ฉํ์ฌ ํด์ ๊ฐ๋ฅํ ์์ค์ ํน์ฑ ํ์ธ๊ฐ๋ฅ.
knowledge-conflicts 5 posts
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs
Personalization์ ๋จ์ํ user-aligned bias๊ฐ ์๋๋ผ factual representation๊ณผ entangle๋๋ฉด์ ์ฒด๊ณ์ ์ธ hallucination์ ๋ง๋ ๋ค๋ ์ฌ์ค์ representation level์์ ๋ฐํ๊ณ inference-time์์ ์ด๋ฅผ ์ ...
The FACTS Grounding Leaderboard: Benchmarking LLMsโ Ability to Ground Responses to Long-Form Input
long input์ ๋ํ response์ ์ฌ์ค์ฑ ํ๊ฐ ๋ฒค์น๋งํฌ ์ ์. ์ต๋ 32K token์ ์ ๋ ฅ ์ฒ๋ฆฌ, ์๋ ํ๊ฐ ํ๋ ์์ํฌ ๊ณต๊ฐ
Real-time Fake News from Adversarial Feedback
LLM์ fake news๋ฅผ ๋ ์ ์์ฑํ๊ฒ ํ๋ ๋ฐฉ๋ฒ. ํ์ต ์ดํ ๋ฐ์๋๋ ์ฌ๊ฑด์ fake news ํ์ง๋ฅผ ์ํด, adversarial iterative fake news ์์ฑ ํ์ดํ๋ผ์ธ ์ ์
Pandoraโs Box or Aladdinโs Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
LLM์ RAG ์ํฉ์์ ๋ค์ํ Noise๋ฅผ ๊ตฌ๋ถํ๊ณ ๋ถ์. ์ ์ตํ Noise์ ๊ฒฝ์ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ๊ฒ์ ํ์ธ. ๋ฒค์น๋งํฌ NoiserBench๋ฅผ ์ ์ํ์ฌ LLM์ Noise ๋์ ํ๊ฐ ๋ฐ ์ ์ตํ noise๋ ํ์ฉํ๊ณ ํด๋ก์ด noise๋ ์ค์ด๋ ๋ฐฉ๋ฒ ์ ์.
Having Beer after Prayer? Measuring Cultural Bias in Large Language Models
์๋-์๊ตฌ๋ฌธํ๊ฐ ๋์กฐ๋๋ entity์ natural occurring prompt ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ CAMeL์ ์ ์ํ๊ณ , ์ด๋ฅผ ํตํด ์ฌ๋ก์ฐ๊ตฌํ ๊ฒฐ๊ณผ LLM์ด ์๊ตฌ๋ฌธํ๊ถ entity์ ํธํฅ๋์ด ์์์ ๋ํ ์ฐ๋ ค
knowledge-editing 3 posts
Machine Unlearning Doesnโt Do What You Think: Lessons for Generative AI Policy, Research, and Practice
unlearning์ด genAI๋ฅผ ํต์ ํ ์ ์๋ ๋ฒ์ฉ solution์ด ๋ชป๋๋ค
Counterfactual Generation from Language Models
LM intervention์ ์ํฅ ์ ๋ํ ์๋
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability
standard LM training์ ํน์ text๋ฅผ ์์ฑํ๋๋ก ํ์ต์ํจ๋ค๊ณ ํด์ ๊ทธ text์ implies(ํจ์)์ ํด๋นํ๋ text๋ค์ probability๊ฐ ๋์์ง๋ ๊ฒ์ ์๋. factuality ์ธก๋ฉด์์ ๊ด๋ จ fact set (text)์๋ ๋์ ํ๋ฅ ์ assignํ๊ธฐ...
knowledge-graph 1 posts
Knowing When to Ask - Bridging Large Language Models and Data
Data Commons (knowledge Graph)๋ฅผ ํ์ฉํ์ฌ LLM ์๋ต์ ์ฌ์ค์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํฅ์์์ผ LLM๊ณผ ์ค์ ๋ฐ์ดํฐ ๊ฐ์ ๊ฒฉ์ฐจ ํด์ํ๋ DataGemma ์๊ฐ
language-modeling 30 posts
Counterfactual Generation from Language Models
LM intervention์ ์ํฅ ์ ๋ํ ์๋
MoEE: Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
MoE LLM์ router weight๋ฅผ ํ์ฉํ๋ฉด ๋ณ๋ ์ถ๊ฐ ํ์ต ์์ด decoder-style LLM์์๋ ๊ด์ฐฎ์ representation (embedding) ๋ฝ์ ์ ์๋ค.
LC-LLM RAG: Long-Context LLMs Meet RAG
LC-LLM์ RAG์์ ์ธ ๋, (1) context ์์๋ฅผ ์ ์ฃผ๊ณ (2) RAG ๋๋์ ํ๋์์ผ์ฃผ๊ณ (3) ๋ช ์์ ์ผ๋ก relevant ์ฌ๋ถ๋ฅผ ํ๋จํ๋๋ก reasoning step ์ฃผ๋ฉด ๋ ์ํ๋ค.
Differential Transformer
Q/K๋ฅผ ๊ฐ๊ฐ ๋ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด 2๊ฐ์ softmax attention map๊ฐ ์ฐจ์ด๋ฅผ ๊ณ์ฐ, relevant context์ ๋ํ attention์ ํค์ฐ๊ณ ๋ ธ์ด์ฆ๋ ์ ๊ฑฐํ๋ ๋ฐฉ์์ transformers ๋ณํ ์ ์, hallucination ๊ฐ์
Selective Attention Improves Transformer
attention ์ฐ์ฐ์์ ํ๋ผ๋ฏธํฐ ๋ณ๊ฒฝ ์์ด, ์์ฑ๋ token์ด ๋ค๋ฅธ token์ด ๋์ด์ ํ์ ์๋ค๊ณ ๊ฒฐ์ ํ ์ ์๋๋ก ์ฒ๋ฆฌ, ๋ฏธ๋ ์์ ์์๋ ํด๋น token์ด ๋ถํ์ํ๋ค๊ณ ํ๋จํ๋ token๋ค์ ๋ํ attention์ ์ค์ด๋ ๋ฐฉ๋ฒ์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๊ณ์ฐ ๋น์ฉ์ ...
Theory, Analysis, and Best Practices for Sigmoid Self-Attention
Softmax๋ฅผ Sigmoid์ ์์ bias (sequence length๊ธฐ๋ฐ)๋ก ๋์ฒดํ๋ ๋ฑ์ ๋ฐฉ์์ผ๋ก attention ์ฐ์ฐ ์๋๋ฅผ 18%๊ฐ๋ ํฅ์์ํจ FLASHSIGMOID ์ ์
Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability
๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ ํฌ๊ณ ํ์ต ์๊ฐ์ด ๊ธธ์๋ก hallucination์ด ๋ ๋ฐ์ํ๋ ๊ฑด ๋ง์ง๋ง,ย ์ด๋ฅผ 5%์ดํ์ ๋ฎ์ ์์ค์ผ๋ก ์ค์ด๋ ค๋ฉด (์ผ๋ฐ์ ์ผ๋ก ์๋ ค์ง scaling law๋ณด๋ค) ํจ์ฌ ๋ ํฐ ๋ชจ๋ธ๊ณผ ๋ ๋ง์ ์ปดํจํ ์์์ด ํ์ํ๋ค.
Having Beer after Prayer? Measuring Cultural Bias in Large Language Models
์๋-์๊ตฌ๋ฌธํ๊ฐ ๋์กฐ๋๋ entity์ natural occurring prompt ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ CAMeL์ ์ ์ํ๊ณ , ์ด๋ฅผ ํตํด ์ฌ๋ก์ฐ๊ตฌํ ๊ฒฐ๊ณผ LLM์ด ์๊ตฌ๋ฌธํ๊ถ entity์ ํธํฅ๋์ด ์์์ ๋ํ ์ฐ๋ ค
Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
(1) RAG vs. Long-context LLM์ ๋ํด, ์์๋ง ์ถฉ๋ถํ๋ค๋ฉด ๊ฒฐ๊ณผ์ ์ผ๋ก๋ LC LLM์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ผ๋, (2) ๋น์ฉ ์ธก๋ฉด์ ํจ์จ์ ์ํด RAG๋ก routingํ๋ approach, Self-Route ์ ์
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
์ด์ ๊ณต๊ฐํ๋ ๋ชจ๋ธ(Chat QA 1.5)์ LLaMA3-70B์ context length ํ์ฅํ๋ฉด์ instruction following / RAG capability ํฅ์์ํค๋ ๋ฐฉ๋ฒ ์ ์
Be like a Goldfish, Donโt Memorize! Mitigating Memorization in Generative LLMs
causal language modeling objective ๋์ Goldfish Loss ์ ์, ์๊ธฐ๋๋ก ์์ฑํด๋ด๋ ๋ฐฉ์ ์ํ
Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models
LLM์๊ฒ ํ์ต ๋ ๋ ํ ํฐ ์๋ ๊ฐ์ง๊ธฐ์ ์ ์
Better & Faster Large Language Models via Multi-token Prediction
ํ ๋ฒ์ 1๊ฐ๊ฐ ์๋ multi-token prediction์ ํ์ตํ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ๋ ์ข๋ค๊ณ . 4-token prediction์ ํ์ตํ LM์ด ๋ฐฐ์น๊ฐ ํฐ ๊ฒฝ์ฐ์๋ ์ต๋ 3๋ฐฐ ์ถ๋ก ์๋ ํฅ์ ๊ฐ๋ฅ.
Chinchilla Scaling: A replication attempt
Chinchilla scaling law ์ฌํ์ด ์ ์๋๋ค
Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance
LLM์๊ฒ ์ ๋นํ ์์๋ฐ๋ฅด๊ฒ ์ฟผ๋ฆฌํ๋ฉด ๋ ์ข์ ์ฑ๋ฅ์ด ๋์จ๋ค๋ empirical study.
Generative Representational Instruction Tuning
text embedding๊ณผ generation ํตํฉํ๋ Generative Representational Instruction Tuning ์ ์. ๋จ์ผ๋ชจ๋ธ์ธ GritLM์ embedding(MTEB) ๋ฐ generation task(BBH...)์์ ๋ชจ๋ SoTA๋ฅผ ๋ฌ์ฑ.
Chain-of-Thought Reasoning Without Prompting
LLM์ decoding์ greedy decoding์์ top-k decoding์ผ๋ก ๋ฐ๊พธ๋ฉด prompt ์์ด๋ CoT reasoning ์ ๋ ๊ฐ๋ฅ
Specialized Language Models with Cheap Inference from Limited Domain Data
1) generic pretraining cost 2) domain-specific pretraining cost 3) inference cost 4) size of specific domain training set ๋ค๊ฐ์ง ์ ์ฝ์กฐ๊ฑด ํ์์ ๊ฐ์ฅ ํจ์จ์ ์ธ ํ์ต์ ๋ํ emperic...
Orion-14B: Open-source Multilingual Large Language Models
ํ๊ตญ์ด ํฌํจ ๋์์์๊ถ ์ธ์ด๋ฅผ ์ค์ฌ์ผ๋ก ํ์ต๋ multilingual model ๊ณต๊ฐ. Vocab ์ฌ์ด์ฆ๋ย ์๋์ ์ด์ง๋งย ๊ฒฐ์ฝ ์์ง ์๊ณ , ์ค์ ์ฑ๋ฅ๋ ํ๋ฅญํ ์์ค.
Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens
โ-n๊ณผ ์กฐ๋จ์ token corpus๋ก n-gram ์ฟผ๋ฆฌ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ย infini-gramย ๊ณต๊ฐ
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability
standard LM training์ ํน์ text๋ฅผ ์์ฑํ๋๋ก ํ์ต์ํจ๋ค๊ณ ํด์ ๊ทธ text์ implies(ํจ์)์ ํด๋นํ๋ text๋ค์ probability๊ฐ ๋์์ง๋ ๊ฒ์ ์๋. factuality ์ธก๋ฉด์์ ๊ด๋ จ fact set (text)์๋ ๋์ ํ๋ฅ ์ assignํ๊ธฐ...
Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers
ODQA์์ ๋ชจ๋ธ response๋ฅผ ๋ ์ธ๋ถํ๋ ์์ค์ผ๋ก ๋๋ ์ ์ ํ์ฑ ๋ฐ ์ ๋ณด์ฑ ์ธก๋ฉด์์ ํ๊ฐํ ์ ์๋ GRANOLA QA ๋ฒค์น๋งํฌ ๊ณต๊ฐ ๋ฐ ๊ทธ ์ธ๋ถํ๋ ์ ๋ณด์ฑ์ ํ๋ณดํ๊ธฐ ์ํ ๋์ฝ๋ฉ ๋ฐฉ์ DRAG ์ ์
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
LM์ด Self-Talk๋ฅผ ํตํด training ๋ฐ์ดํฐ๋ฅผ ์์ฑ>์ ์ >SFT์ ํ์ฉ (bootstrapping). ์ด ๊ณผ์ ์์ ๋ณ๋ชฉ์ ํด์ํ๊ธฐ ์ํด ๋ํ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ์ธก์ ํ๋ automatic metric ์ ์
Blending is All You Need
์ฌ๋ฌ ๊ฐ์ ์์ ๋ชจ๋ธ์ Blendํด์ ํ๋์ ํฐ ๋ชจ๋ธ๊ณผ ๋น์ทํ ํน์ ๋ ๋์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค.
LLaMA Pro: Progressive LLaMA with Block Expansion
์๋ก ์ถ๊ฐํ ๋ธ๋ก์ ๋งค๊ฐ๋ณ์๋ง ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ก ์ ๋ฐ์ดํธํ๋ post-pretraining ๋ฐฉ์์ block expansion์ด domain-specific task์ ํนํ ์ ์ฉํ๋ค๊ณ ์ ์. ์ ์ฒด๋ฅผ finetuningํ ๋ ๋ฐ์๋๋ ๋ง๊ฐ์ด ์ผ์ด๋์ง ์๋๋ค๊ณ . ๋์ผ ๋ฐ์ดํฐ ์ฌ์ฉ์ ์ ์ ...
LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
sLLM(GPT2-small, LLaMA-7B, etc. )์ผ๋ก ํ๋กฌํํธ์์ ๋ถํ์ํ ํ ํฐ์ ์๋ณ>์ ๊ฑฐ(์์ถ), LLM์ ์ฑ๋ฅ ์์ค์ ์ต์ํํ๋ฉด์ ์ต๋ 20๋ฐฐ์ ์์ถ ๋ฌ์ฑ ๊ฐ๋ฅ
Scaling Transformer to 1M tokens and beyond with RMT
RMT(Recurrent Memory Transformer) retains information across up to 2 million tokens!
What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?
Causal decoder-only models trained on an autoregressive language modeling objective(standard FLM objective) exhibit the strongest zero-shot generalization w/...
LLaMA : Open and Efficient Foundation Language Models
10๋ฐฐ ๋ ์ ์ ํ๋ผ๋ฏธํฐ(13B)๋ก GPT-3 175B ๋๋น ๊ฑฐ์ ๋ชจ๋ ๋ฒค์น๋งํฌ์์ ๋ ๋์ ์ฑ๋ฅ ๋ฌ์ฑ.
llm-as-a-judge 5 posts
Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models
policy์ reference-based RM (verifyRM) ์ ๋์์ updateํ๋ RL framework COOPER ์ ์. reward hacking์ ๋ง๊ธฐ ์ํด rule-based positives์ LLM-generated negatives๋ฅผ ํ์ฉํ contras...
RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback
ํด๋ต์ ์ ํ์ฑ ๋ฐ ๊ฐ์ ๊ธฐ์ฌ ํผ๋๋ฐฑ์ ๋ชจ๋ ํ๊ฐํ๋ dual-reward RL-trained critic model์ ๋์ ํ RefCritic ์ ์, ์๋ฆฌ ์ถ๋ก ๊ณผ์ ์์ ํฐ ์ฑ๋ฅ ํฅ์
Scaling Laws of Synthetic Data for Language Models
SYNTHLLM ๋ฐฉ์์ผ๋ก ์์ฑํ ํฉ์ฑ๋ฐ์ดํฐ๋ LLM finetuning์ ๋ํด ์์ธก ๊ฐ๋ฅํ๊ณ ํจ๊ณผ์ ์ผ๋ก scale ๋๊ณ , ์์ ํ scaling law์ ๋ฐ๋ผ natural data ๋ถ์กฑ์ ๋ํ ํ์ฅ๊ฐ๋ฅํ ์๋ฃจ์ ์ด ๋๋ค๊ณ ์ฃผ์ฅ
Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge
์ฌ์ ์ ํ๊ฐ ๊ธฐ์ค์ ์ ๊ณตํ์ง ์๊ณ , ์์ฒด์ ์ผ๋ก ํ๊ฐ ๊ณํ-์คํ-ํ๋จ์ ๋ถ๋ฆฌํ์ฌ ์ํํ๋ Self-training loop์ thinking-llm-as-a-judge framework ์ ์, ์ ์ ๋ฐ์ดํฐ๋ก๋ SOTA ์ฑ๋ฅ๋ฌ์ฑ
LLM Evaluators Recognize and Favor Their Own Generations
LLM์ ์๊ธฐ๊ฐ ๋ง๋ ๊ฒฐ๊ณผ๋ฅผ ์ ํธํ๋ค๋ ๊ธฐ์กด ์ฃผ์ฅ์ ๋ํ ์ฌ์ธต ๋ ผ์ (๊ฒฐ๋ก : ์ค์ ๊ทธ๋ ๋ค)
long-context 9 posts
LightMem: Lightweight and Efficient Memory-Augmented Generation
sensory > topic-aware short-term > sleep-time long-term memory ์ ๋ฐ์ดํธ์ 3๋จ๊ณ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ ์ ์, LongMemEval ์ ํ๋ ํฅ์ ๋ฐ token/API call/runtime ๋น์ฉ ๋ํญ ์ถ์ ํ์ธ
MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs
multi-turn setup์์์ ๋์ 4๊ฐ์ง (Instruction Retention, Inference Memory, Reliable Versioned Editing, Self-Coherence)๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ ์ ์, ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ์ฑ๊ณตํ๋ ์ต์ SOTA ๋ชจ๋ธ๋ค๋ ์ ์...
LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs
ํ๋ จํ ๋ ๋ณธ context length๋ฅผ ๋์ด์๋ Diffusion-based LLM์ "local perception" ๋๋ถ์ ์์ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ LongLLaDA ์ ์. NTK ๊ธฐ๋ฐ RoPE extrapolation์ผ๋ก Diffusion-based LLM์ input le...
A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts
gist memory์ interactive look-up์ ์ฉํ์ฌ LLM์ด ์ฌ๋์ฒ๋ผ ํ์ํ ๋ถ๋ถ๋ง ๋ค์ ๊ฒ์ํ๋ ๋ฑ์ ๋ฐฉ์์ผ๋ก ์ต๋ 20๋ฐฐ ๋ ๊ธด context๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ prompting ์์คํ ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ๋ก ์ ์
Inference Scaling for Long-Context Retrieval Augmented Generation
LM์ RAG inference ์ฑ๋ฅ ํฅ์์ ์ํ scaling ์ ๋ต์ ์ ์ํ๊ณ , ์ ํจ ์ปจํ ์คํธ ๊ธธ์ด์ ๊ท๋ชจ์ RAG ์ฑ๋ฅ ๊ฐ์ ์ ํ์ ์ธ ๊ด๊ณ๊ฐ ์์์ ํ์ธ
LC-LLM RAG: Long-Context LLMs Meet RAG
LC-LLM์ RAG์์ ์ธ ๋, (1) context ์์๋ฅผ ์ ์ฃผ๊ณ (2) RAG ๋๋์ ํ๋์์ผ์ฃผ๊ณ (3) ๋ช ์์ ์ผ๋ก relevant ์ฌ๋ถ๋ฅผ ํ๋จํ๋๋ก reasoning step ์ฃผ๋ฉด ๋ ์ํ๋ค.
Differential Transformer
Q/K๋ฅผ ๊ฐ๊ฐ ๋ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด 2๊ฐ์ softmax attention map๊ฐ ์ฐจ์ด๋ฅผ ๊ณ์ฐ, relevant context์ ๋ํ attention์ ํค์ฐ๊ณ ๋ ธ์ด์ฆ๋ ์ ๊ฑฐํ๋ ๋ฐฉ์์ transformers ๋ณํ ์ ์, hallucination ๊ฐ์
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
(1) ์ฌ๋ฌ ๊ธธ์ด์ interval (2) ๋ค์ํ depth range๋ฅผ ๊ฐ์ง (3) ์ ์ง์ ์ผ๋ก ์ด๋ ค์์ง๋ (4) 2 ์ธ์ด(์๋ฌธ/์ค๋ฌธ)์ long context ๋ฅ๋ ฅ์ ํ๊ฐํ๋ NeedleBench ์ ์ ๋ฐ ๋ค์ํ ๋ชจ๋ธ๋ก ํ๊ฐ ๊ฒฐ๊ณผ ๋ฆฌํฌํธ
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
๊ฒ์ ๋จ์๊ฐ ๊ธด ๊ฒฝ์ฐ ์ถ์ถ๋๋ ๋จ์ ์๋ฅผ ๋ํญ ์ค์ด๊ธฐ ์ํ long retriever + long reader์ ์
long-horizon 3 posts
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
Long-horizon LLM agents์ context window bottleneck ํด๊ฒฐ์ ์ํด, ๊ตฌ์กฐํ๋ ๋ฉ๋ชจ๋ฆฌ ์์คํ Indexed Experience Memory์ ์ด๋ฅผ ํ์ตํ๋ MemexRL ์ ์
MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks
multi-session + interdependent subtask ํ๊ฒฝ์ Memory-Agent-Environment loop๋ฅผ ํ๊ฐํ๋ benchmark๋ฅผ ์ ์ํ๊ณ , ๊ธฐ์กด memory system์ด ์ค์ agentic setting์์ ๋งค์ฐ ์ทจ์ฝํจ์ ์ค์ฆ
Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents
long-horizon task์์ ๋ฐ์ํ๋ planning ์คํจ์ ํต์ฌ ์์ธ์ entanglement๋ก ๊ท์ , ์ด๋ฅผ subtask ๋จ์๋ก ๋ถ๋ฆฌ๋ DAG ๊ธฐ๋ฐ planning์ผ๋ก ํด๊ฒฐํ๋ ๊ฒ์ ์ ์, ์ฑ๋ฅ ํฅ์ ๋ฐ ํ ํฐ ์ ๊ฐ์์ ์ ์
lrm 2 posts
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
LRM์ด thinkํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ฌ๋, ๋ณต์ก๋๊ฐ ๋์ผ๋ฉด ์คํจํ๊ฑฐ๋ ์ถ๋ก ๋ ๋นํจ์จ์ ์ผ๋ก(=๋) ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์, ์ง์ ํ ์ผ๋ฐํ ์ถ๋ก ์ฑ๋ฅ์ ๋ถ์กฑํ๋ค.
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
LRMs์ด overthinkingํ๊ฒ ๋๋ฉด agentic ํ๊ฒฝ๊ณผ ์ ๋๋ก ์ํธ์์ฉํ์ง ๋ชปํ๋ Reasoning-Action Dilemma๊ฐ ๋ฐ์๋๊ณ , ์ด๋ ์ฑ๋ฅ ํ๋ฝ์ ์ด๋ํ๋ค๋ ๊ฒฐ๊ณผ ๋ณด๊ณ
lvlm 1 posts
Slow Perception: Letโs Perceive Geometric Figures Step-by-step
๊ธฐํ ๋ฌธ์ ํ์ด์ ์์ด์ ๋ชจ๋ธ์ด ์ฒ์ฒํ ๋ณด๊ฒ ํ๋๊ฒ ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค.
memory 11 posts
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
Long-horizon LLM agents์ context window bottleneck ํด๊ฒฐ์ ์ํด, ๊ตฌ์กฐํ๋ ๋ฉ๋ชจ๋ฆฌ ์์คํ Indexed Experience Memory์ ์ด๋ฅผ ํ์ตํ๋ MemexRL ์ ์
MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks
multi-session + interdependent subtask ํ๊ฒฝ์ Memory-Agent-Environment loop๋ฅผ ํ๊ฐํ๋ benchmark๋ฅผ ์ ์ํ๊ณ , ๊ธฐ์กด memory system์ด ์ค์ agentic setting์์ ๋งค์ฐ ์ทจ์ฝํจ์ ์ค์ฆ
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
memory consolidation๊ณผ reasoning์ ํ๋์ internal state๋ก ํตํฉํ๋๋ก RL ํ์ตํ์ฌ long-horizon task์์ ๊ฑฐ์ ์ผ์ ํ context size ์ ์งํ๋ฉฐ ์ฑ๋ฅ ํฅ์
SimpleMem: Efficient Lifelong Memory for LLM Agents
LLM Agent์ LTM์ semantic lossless compression์ผ๋ก ์ฌ์ ์ํ๊ณ , write-time ๊ตฌ์กฐํยทonline synthesisยทintent-aware retrieval๋ก ์ฑ๋ฅ๊ณผ ํ ํฐ ํจ์จ(์ต๋ 30๋ฐฐ)์ ๊ฐ์ ํ ๋ฉ๋ชจ๋ฆฌ ํ๋ ์์ํฌ ์ ์
Learning User Preferences Through Interaction for Long-Term Collaboration
multi-turn interaction์์ user์ explicit preference๋ฅผ memory๋ก ํ์ตํ๋ฉด ๋จ์ Recall-based memory๋ณด๋ค long-term collaboration(์ฑ๊ณต๋ฅ /ํจ์จ/user burden)์ด ์ ์ํ๊ฒ ๊ฐ์ ๋๋ค.
Adaptation of Agentic AI
agentic AI ์ฐ๊ตฌ์์ adaptation์ด๋ผ๋ ๊ฐ๋ ์ด ํผ์ฉ๋์ด์๊ณ , ์ฒด๊ณ์ ์ธ ์์คํ ์์ค ์ค๊ณ ๋ฐ ๋น๊ต๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด adaptation ๋์(agent vs tool)๊ณผ adaptation์ ์ ๋ํ๋ ์ ํธ๋ฅผ ๊ตฌ๋ถํ๋ ๋ถ๋ฅ ์ฒด๊ณ ์ ์
Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory
LLM Agent๊ฐ test-time์ ๊ณผ๊ฑฐ ๊ฒฝํ์ ์ค์ค๋ก ์งํ์ํค๋ฉฐ ํ์ตํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ streaming benchmark Evo-Memory ์ ์, ExpRAG / ReMem ๊ฐ์ baseline์ ์ ์ํ์ฌ ๊ฒฝํ ์ฌ์ฌ์ฉ ๊ธฐ๋ฐ ์ฑ๋ฅ ํฅ์์ ๋ํ ๋น๊ต ํ๊ฐ ๊ธฐ๋ฐ ์ ์
General Agentic Memory via Deep Research
๊ฒฝ๋ memorizer์ full-page store + deep research๋ก Just-In-Time memory ํ๋ ์์ํฌ ์ ์, ๊ธฐ์กด ์ฌ์ ์์ถ (static) ๋ฉ๋ชจ๋ฆฌ ๋๋น ๋ค์ํ long-term + multi-hop ์ฑ๋ฅ ํฅ์ ๋ฌ์ฑ
HaluMem: Evaluating Hallucinations in Memory Systems of Agents
Agent memory system์ hallucination์ด ์ด๋(extract > update > QA)์์ ๋ํ๋๋์ง ์ง๋จํ๋ ๋ฒค์น๋งํฌ ์ ์
LightMem: Lightweight and Efficient Memory-Augmented Generation
sensory > topic-aware short-term > sleep-time long-term memory ์ ๋ฐ์ดํธ์ 3๋จ๊ณ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ ์ ์, LongMemEval ์ ํ๋ ํฅ์ ๋ฐ token/API call/runtime ๋น์ฉ ๋ํญ ์ถ์ ํ์ธ
MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents
multi-scenario (participation & observation) + multi-level (factual & reflective) ๋ฉ๋ชจ๋ฆฌ ์ ํ ํตํฉ, multi-metric evaluation๋ฅผ ์ฌ์ฉํ๋ LLM-based agent์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ธ M...
mia 1 posts
Detecting Training Data of Large Language Models via Expectation Maximization
Expectation-Maximization ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๋ฉค๋ฒ์ญ ์ ์์ prefix ์ ์๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ ๋ฐ์ดํธํ์ฌ ๋ ๋์ ๋ฉค๋ฒ์ญ ์ถ๋ก ์ ์ํํ๋ ์๋ก์ด LLM์ฉ MIA ๋ฐฉ์ EM-MIA ์ ์
mid 1 posts
Do Large Language Model Understand Multi-Intent Spoken Language ?
SLU(Spoken Language Understanding)์ ๋ํ LLM ํ์ฉ ์ฐ๊ตฌ๋ฅผ ์ํ LM-MixATIS, LM-MixSNIPS ๋ฒค์น๋งํฌ ๋ฐ metric ์ ์
mllm 1 posts
Honeybee: Locality-enhanced Projector for Multimodal LLM
MLLM์์ vision encoder์ LLM ์ฌ์ด์ visual projector๊ฐ ํต์ฌ ๋ณ๋ชฉ์์ ๋ถ์, visual token flexibility์ locality preservation์ ๋์์ ๋ง์กฑํ๋ Honeybee projector๋ฅผ ์ ์
moe 1 posts
MoEE: Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
MoE LLM์ router weight๋ฅผ ํ์ฉํ๋ฉด ๋ณ๋ ์ถ๊ฐ ํ์ต ์์ด decoder-style LLM์์๋ ๊ด์ฐฎ์ representation (embedding) ๋ฝ์ ์ ์๋ค.
multi-agent 3 posts
General Agentic Memory via Deep Research
๊ฒฝ๋ memorizer์ full-page store + deep research๋ก Just-In-Time memory ํ๋ ์์ํฌ ์ ์, ๊ธฐ์กด ์ฌ์ ์์ถ (static) ๋ฉ๋ชจ๋ฆฌ ๋๋น ๋ค์ํ long-term + multi-hop ์ฑ๋ฅ ํฅ์ ๋ฌ์ฑ
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
Meta info. Authors: Bang Liu, Xinfeng Li, Jiayi Zhang, Jinlin Wang, Tanjin He, Sirui Hong, Hongzhang Liu, Shaokun Zhang, Kaitao Song, Kunlun Zhu, Y...
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents
ํ์ ์ /๊ฒฝ์์ ์ํฉ์์ ์์ด์ ํธ๋ผ๋ฆฌ ์ํธ์์ฉํ๋ ์์คํ ํ๊ฐ์ ๋ํ ๋ฒค์น๋งํฌย MARBLEย ์ ์
multi-linguality 4 posts
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
์คํ์์ค ๋ค๊ตญ์ด LLM Babel ์๋ฆฌ์ฆ ๊ณต๊ฐ
Having Beer after Prayer? Measuring Cultural Bias in Large Language Models
์๋-์๊ตฌ๋ฌธํ๊ฐ ๋์กฐ๋๋ entity์ natural occurring prompt ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ CAMeL์ ์ ์ํ๊ณ , ์ด๋ฅผ ํตํด ์ฌ๋ก์ฐ๊ตฌํ ๊ฒฐ๊ณผ LLM์ด ์๊ตฌ๋ฌธํ๊ถ entity์ ํธํฅ๋์ด ์์์ ๋ํ ์ฐ๋ ค
Word Translation Without Parallel Data
(token) Embedding Alignment ๋ฅผ ํตํ x-lingual translation ์ฑ๋ฅ ํฅ์
Orion-14B: Open-source Multilingual Large Language Models
ํ๊ตญ์ด ํฌํจ ๋์์์๊ถ ์ธ์ด๋ฅผ ์ค์ฌ์ผ๋ก ํ์ต๋ multilingual model ๊ณต๊ฐ. Vocab ์ฌ์ด์ฆ๋ย ์๋์ ์ด์ง๋งย ๊ฒฐ์ฝ ์์ง ์๊ณ , ์ค์ ์ฑ๋ฅ๋ ํ๋ฅญํ ์์ค.
multi-modality 4 posts
Honeybee: Locality-enhanced Projector for Multimodal LLM
MLLM์์ vision encoder์ LLM ์ฌ์ด์ visual projector๊ฐ ํต์ฌ ๋ณ๋ชฉ์์ ๋ถ์, visual token flexibility์ locality preservation์ ๋์์ ๋ง์กฑํ๋ Honeybee projector๋ฅผ ์ ์
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding
MLLMs๊ฐ cognitive visual reasoning ํ๋๋ก ํ์ตํ๋ DeepPerception ์ ์+ Knowledge-Intensive Visual Grounding task ์๊ฐ (+ KVG-Bench ๊ณต๊ฐ)
Slow Perception: Letโs Perceive Geometric Figures Step-by-step
๊ธฐํ ๋ฌธ์ ํ์ด์ ์์ด์ ๋ชจ๋ธ์ด ์ฒ์ฒํ ๋ณด๊ฒ ํ๋๊ฒ ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค.
ReALM: Reference Resolution As Language Modeling
Pipeline style๋ก reference resolution์ ๋ํด finetune๋ ์์ ๋ชจ๋ธ(ReALM)๋ก ํด๊ฒฐ ์๋
multi-turn 1 posts
Flipping the Dialogue: Training and Evaluating User Language Models
Assistant์ฉ LM์ user์ฒ๋ผ ์ญํ ์ง์ํด ์๋ฎฌ๋ ์ด์ ํ๋ ๊ธฐ์กด ๋ฐฉ์์ ๋ณธ์ง์ ์ผ๋ก ๋นํ์ค์ ์ด๋ฉฐ, ์ค์ human user ํ๋์ ํ์ตํ UserLM์ด ํจ์ฌ ๋ ์์ฐ์ค๋ฌ์ด multi-turn user behavior๋ฅผ ์ฌํํด assistant ์ฑ๋ฅ์ ์ง์ง ํ๊ณ๋ฅผ ๋๋ฌ๋ธ๋ค.
odqa 5 posts
GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning
RL(GRPO)์ 2๊ฐ์ง constrained reward(RPA + CAF) ์ ์ฉํ์ฌ GraphRAG agent ํ์ต > ๊ฒ์ํ ๋ ์ ๋ ฅ์ผ๋ก triplet๊ณผ ์์ฐ์ด ํ์ด๋ธ๋ฆฌ๋ ํ์ฉํ์ฌ multi-hop QA์์ ํฐ ์ฑ๋ฅ ํฅ์ ํ์ธ
SSRL: Self-Search Reinforcement Learning
๊ฒ์์์ง์ด๋ ๋ค๋ฅธ LLM ๋ฑ ์ธ๋ถ tool ์์ด ๊ฒ์์ Full-simulationํด์ RL โ real-world๋ก ์ ์ด ๊ฐ๋ฅํ self-search ๋ชจ๋ธ ๊ตฌ์ถ
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
์ด์ ๊ณต๊ฐํ๋ ๋ชจ๋ธ(Chat QA 1.5)์ LLaMA3-70B์ context length ํ์ฅํ๋ฉด์ instruction following / RAG capability ํฅ์์ํค๋ ๋ฐฉ๋ฒ ์ ์
Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers
ODQA์์ ๋ชจ๋ธ response๋ฅผ ๋ ์ธ๋ถํ๋ ์์ค์ผ๋ก ๋๋ ์ ์ ํ์ฑ ๋ฐ ์ ๋ณด์ฑ ์ธก๋ฉด์์ ํ๊ฐํ ์ ์๋ GRANOLA QA ๋ฒค์น๋งํฌ ๊ณต๊ฐ ๋ฐ ๊ทธ ์ธ๋ถํ๋ ์ ๋ณด์ฑ์ ํ๋ณดํ๊ธฐ ์ํ ๋์ฝ๋ฉ ๋ฐฉ์ DRAG ์ ์
Question and Answer Test-Train Overlap in Open-Domain Question Answering Datasets
ODQA์์ ์์ฃผ ์ฌ์ฉํ๋ ๋ฒค์น๋งํฌ NQ์ ๋ํ ๋นํ์ ์๊ฐ์ ๋ด์ ๋ ผ๋ฌธ. ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ train์์ ๋ณธ ๋ด์ฉ์ ์๊ธฐํ๋ ์ญํ ์ ํ ์คํธํ๋ ๊ฒ์ผ๋ก ๋ณด์.
optimization 6 posts
Direct Multi-Turn Preference Optimization for Language Agents
Multi-turn ์์ RL Objectives๋ฅผ ์ง์ optimizeํ๋ ์์คํจ์์ Direct Multi-Turn Preference Optimization (DMPO) ์ ์
Planning Like Human: A Dual-process Framework for Dialogue Planning
์ต์ํ ์ํฉ์ ์ฒ๋ฆฌํ๋ intuitive (fast) ์ ์ฑ ๋ชจ๋ธ๊ณผ ์๋ก์ด ์๋๋ฆฌ์ค๋ฅผ ์ํ analytical (slow)์ ์ ์ฑ ๋ชจ๋ธ์ ์ํธ ๋ณด์์ ์ผ๋ก ์ฌ์ฉํ๋ ์ด์ค dialogue planning ํ๋ ์์ํฌ ์ ์
The boundary of neural network trainability is fractal
๋ณต์กํ ๋ฐ๋ณต ํจํด์ธ Fractal ํจํด์ด AI ํ์ต ํ๋ก์ธ์ค(ํ์ดํผํ๋ผ๋ฏธํฐ)๋ฅผ ์ ์ดํ๋ setting์ ๋ํ๋๋ค.
MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining
๋น ๋ฅธ ์ฌ์ ํ์ต์ ์ํ BERT-style encoder์ architecture์ training ๊ธฐ๋ฒ ์๊ฐ.
UltraFastBERT : Exponentially Faster Language Modelling
FFNN์ FFF(Fast FeedForward)๋ก ๋์ฒดํ์ฌ x78์ ์๋ ํฅ์
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
๋น์ทํ ์ฌ์ด์ฆ Transformer ๋๋น 5๋ฐฐ ๋น ๋ฅธ ์ถ๋ก ์๋
pbrl 1 posts
Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning
PbRL์ ์ํ ์ ๋์ ์ ํธ๊ธฐ๋ฐ ์ต์ ํ ๋ฐฉ๋ฒ๋ก APPO ์ ์
peft 5 posts
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights
prompt๋ฅผ input์ผ๋ก, LoRA-tuend ํ๋ผ๋ฏธํฐ๋ฅผ output์ผ๋ก ํ์ฌ SFTํ๋ ๋ชจ๋ธ DnD ์ ์. DnD๋ฅผ ํ ๋ฒ ํ์ต ํด๋๋ฉด task๋ง๋ค ์ถ๊ฐ ํ์ต ์์ด๋ task-specific LoRA weight๋ฅผ ๋ง๋ค ์ ์๋ค.
Differential Transformer
Q/K๋ฅผ ๊ฐ๊ฐ ๋ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด 2๊ฐ์ softmax attention map๊ฐ ์ฐจ์ด๋ฅผ ๊ณ์ฐ, relevant context์ ๋ํ attention์ ํค์ฐ๊ณ ๋ ธ์ด์ฆ๋ ์ ๊ฑฐํ๋ ๋ฐฉ์์ transformers ๋ณํ ์ ์, hallucination ๊ฐ์
Adaptive Retrieval-Augmented Generation for Conversational Systems
์ฃผ์ด์ง ๋ํ์์ ์ ํ์ ์ธ๋ถ ์ง์์ ์ฆ๊ฐ์ด ํ์ํ์ง ์ฌ๋ถ๋ฅผ ์ ํ์ ์ผ๋ก ๊ฒฐ์ ํ๋ ๋งค์ปค๋์ฆ ์ ์
Generative Representational Instruction Tuning
text embedding๊ณผ generation ํตํฉํ๋ Generative Representational Instruction Tuning ์ ์. ๋จ์ผ๋ชจ๋ธ์ธ GritLM์ embedding(MTEB) ๋ฐ generation task(BBH...)์์ ๋ชจ๋ SoTA๋ฅผ ๋ฌ์ฑ.
Specialized Language Models with Cheap Inference from Limited Domain Data
1) generic pretraining cost 2) domain-specific pretraining cost 3) inference cost 4) size of specific domain training set ๋ค๊ฐ์ง ์ ์ฝ์กฐ๊ฑด ํ์์ ๊ฐ์ฅ ํจ์จ์ ์ธ ํ์ต์ ๋ํ emperic...
persona 1 posts
Persona Vectors: Monitoring and Controlling Character Traits in Language Models
LLM fine-tuning ์ ํ ํน์ ๊ทธ ๊ณผ์ ์์ personality trait shifts(์์ฒจ, ํ๊ฐ, ์ ์) ํ์ง/์์ธก/์ํํ๊ธฐ ์ํด persona vector๋ฅผ ์๋์ผ๋ก ์ถ์ถํ๊ณ ์ ์ฉํ๋ ๋ฐฉ๋ฒ ์ ์
personalization 2 posts
When Personalization Misleads: Understanding and Mitigating Hallucinations in Personalized LLMs
Personalization์ ๋จ์ํ user-aligned bias๊ฐ ์๋๋ผ factual representation๊ณผ entangle๋๋ฉด์ ์ฒด๊ณ์ ์ธ hallucination์ ๋ง๋ ๋ค๋ ์ฌ์ค์ representation level์์ ๋ฐํ๊ณ inference-time์์ ์ด๋ฅผ ์ ...
A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models
LLM์์์ ๊ฐ์ธํ/๋ค์์ ์ ํธ ์ ๋ ฌ์ training/test-time, ์ฌ์ฉ์ ๋ชจ๋ธ๋ง ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ผ๋ก ์ฒด๊ณํ, ํ๊ฐ ๋ฐ ํ์ฅ์ฑ ์ธก๋ฉด์ ๊ตฌ์กฐ์ ํ๊ณ ํ์ธ
petl 6 posts
Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation
Divide-and-Conquer ์ ๋ต์ ๊ธฐ๋ฅ์ ํฉ์(functional consensus)๋ฅผ ์ ๋ชฉํ CodeGen framework FUNCODER ์ ์
Selective Attention Improves Transformer
attention ์ฐ์ฐ์์ ํ๋ผ๋ฏธํฐ ๋ณ๊ฒฝ ์์ด, ์์ฑ๋ token์ด ๋ค๋ฅธ token์ด ๋์ด์ ํ์ ์๋ค๊ณ ๊ฒฐ์ ํ ์ ์๋๋ก ์ฒ๋ฆฌ, ๋ฏธ๋ ์์ ์์๋ ํด๋น token์ด ๋ถํ์ํ๋ค๊ณ ํ๋จํ๋ token๋ค์ ๋ํ attention์ ์ค์ด๋ ๋ฐฉ๋ฒ์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๊ณ์ฐ ๋น์ฉ์ ...
Configurable Foundation Models: Building LLMs from a Modular Perspective
LLM์ ์ธ๊ฐ์ ๋์ ๊ฐ์ด ๊ธฐ๋ฅ์ ๋ชจ๋๋ก ์ ๊ทผํ์๋ ๊ด์ ์ ์ (brick ๋จ์๋ก ๋ถํด)๊ณผ ๊ฒฝํ์ ์คํ ๊ฒฐ๊ณผ ๋ณด๊ณ
Zero-Shot Cross-Domain Dialogue State Tracking via Dual Low-Rank Adaptation
multi-layer๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ transformer ๊ณ์ด ๋ชจ๋ธ์์ prompt๊ฐ ๋ค์ชฝ์ผ๋ก ๊ฐ์๋ก ์ํ์ง๋ ๋ฌธ์ ๋ฅผ ์ํํ๋ DualLoRA ์ ์
Specialized Language Models with Cheap Inference from Limited Domain Data
1) generic pretraining cost 2) domain-specific pretraining cost 3) inference cost 4) size of specific domain training set ๋ค๊ฐ์ง ์ ์ฝ์กฐ๊ฑด ํ์์ ๊ฐ์ฅ ํจ์จ์ ์ธ ํ์ต์ ๋ํ emperic...
SliceGPT: Compress Large Language Models by Deleting Rows and Columns
weight matrtix๋ฅผ ๋ ๊ณ ๋ฐ๋์ ์์ ํ๋ ฌ๋ก slicingํ๋ ๋ฐฉ์์ ์๋ก์ด post training sparsification ์ ์. ์ฑ๋ฅ drop์ 1%~10% ๋ด๋ก ๋ฐฉ์ดํ๋ฉด์ ํ๋ผ๋ฏธํฐ(embedding ํฌํจ)๋ ์ต๋ 25%๊น์ง ์ ๊ฑฐ ๊ฐ๋ฅ.
planning 2 posts
SimpleMem: Efficient Lifelong Memory for LLM Agents
LLM Agent์ LTM์ semantic lossless compression์ผ๋ก ์ฌ์ ์ํ๊ณ , write-time ๊ตฌ์กฐํยทonline synthesisยทintent-aware retrieval๋ก ์ฑ๋ฅ๊ณผ ํ ํฐ ํจ์จ(์ต๋ 30๋ฐฐ)์ ๊ฐ์ ํ ๋ฉ๋ชจ๋ฆฌ ํ๋ ์์ํฌ ์ ์
Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents
long-horizon task์์ ๋ฐ์ํ๋ planning ์คํจ์ ํต์ฌ ์์ธ์ entanglement๋ก ๊ท์ , ์ด๋ฅผ subtask ๋จ์๋ก ๋ถ๋ฆฌ๋ DAG ๊ธฐ๋ฐ planning์ผ๋ก ํด๊ฒฐํ๋ ๊ฒ์ ์ ์, ์ฑ๋ฅ ํฅ์ ๋ฐ ํ ํฐ ์ ๊ฐ์์ ์ ์
post-training 1 posts
Reasoning with Sampling: Your Base Model is Smarter Than You Think
์ถ๊ฐ ํ์ต ์์ด ๋จ์ MCMC ๊ธฐ๋ฐ ์ํ๋ง๋ง์ผ๋ก LLM์ base model์ด RL๋ก post-training๋ ๋ชจ๋ธ ์์ค์ ์ถ๋ก ๋ฅ๋ ฅ ๋ผ ์ ์๋ค.
ppo 1 posts
GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning
RL(GRPO)์ 2๊ฐ์ง constrained reward(RPA + CAF) ์ ์ฉํ์ฌ GraphRAG agent ํ์ต > ๊ฒ์ํ ๋ ์ ๋ ฅ์ผ๋ก triplet๊ณผ ์์ฐ์ด ํ์ด๋ธ๋ฆฌ๋ ํ์ฉํ์ฌ multi-hop QA์์ ํฐ ์ฑ๋ฅ ํฅ์ ํ์ธ
preference 1 posts
Learning User Preferences Through Interaction for Long-Term Collaboration
multi-turn interaction์์ user์ explicit preference๋ฅผ memory๋ก ํ์ตํ๋ฉด ๋จ์ Recall-based memory๋ณด๋ค long-term collaboration(์ฑ๊ณต๋ฅ /ํจ์จ/user burden)์ด ์ ์ํ๊ฒ ๊ฐ์ ๋๋ค.
projector 1 posts
Honeybee: Locality-enhanced Projector for Multimodal LLM
MLLM์์ vision encoder์ LLM ์ฌ์ด์ visual projector๊ฐ ํต์ฌ ๋ณ๋ชฉ์์ ๋ถ์, visual token flexibility์ locality preservation์ ๋์์ ๋ง์กฑํ๋ Honeybee projector๋ฅผ ์ ์
prompt-compression 2 posts
A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts
gist memory์ interactive look-up์ ์ฉํ์ฌ LLM์ด ์ฌ๋์ฒ๋ผ ํ์ํ ๋ถ๋ถ๋ง ๋ค์ ๊ฒ์ํ๋ ๋ฑ์ ๋ฐฉ์์ผ๋ก ์ต๋ 20๋ฐฐ ๋ ๊ธด context๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ prompting ์์คํ ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ๋ก ์ ์
LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression
prompt compression์ token classification์ผ๋ก formulate, encoder-based compressor ํ์ต ์ ์ (Data Distillation)
prompting 10 posts
ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents
LLM-based agent์ reasoning, conversation, action ๊ธฐ๋ฅ์ ํตํฉ, ๋ํํ ํ๊ฒฝ์์ ์ญ๋์ /ํ์ ์ /context-awareํ task-solving์ ๊ฐ๋ฅํ๊ฒ ํ๋ ReSpAct ํ๋ ์์ํฌ ์ ์
Chain of Draft: Thinking Faster by Writing Less
ํ์์ ์ธ ์ค๊ฐ ์ถ๋ก ๋ง ์ต์ํ์ผ๋ก ์์ฑ, ํ ํฐ ์ฌ์ฉ๊ณผ ์ถ๋ก ์๊ฐ์ ํฌ๊ฒ ์ค์ด๋ ํ๋กฌํํ ๋ฐฉ์ CoD ์ ์
CRAB: Constraint Back-translation Improves Complex Instruction Following of Large Language Models
์ ์ฝ์กฐ๊ฑด์ ์ฌ์์ฑ (backtranslation) ์ํค๋ฉด ์ ์ฝ์กฐ๊ฑด์ ๋ ์ ๋ฐ๋ฅด๋๋ผ
Adaptive Retrieval-Augmented Generation for Conversational Systems
์ฃผ์ด์ง ๋ํ์์ ์ ํ์ ์ธ๋ถ ์ง์์ ์ฆ๊ฐ์ด ํ์ํ์ง ์ฌ๋ถ๋ฅผ ์ ํ์ ์ผ๋ก ๊ฒฐ์ ํ๋ ๋งค์ปค๋์ฆ ์ ์
Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost
๋จ์ํ๊ฒ prompt์ ๊ธธ์ด ์ ํ์ ๊ฑธ์ด๋ ์ฑ๋ฅ์ ๋ณ ์ํฅ์ด ์๊ฐ๋ฉด์ ํจ์จ์ ์ถ๋ก ๊ฐ๋ฅ
SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales
์๊ธฐ ๋ฐ์ฑ์ (?) ๊ทผ๊ฑฐ์ ๋ค์ค ์ถ๋ก chain์ผ๋ก LLM์์ ์ ๋ขฐ๋ ๋ณด์ ์ค๋ฅ๋ฅผ 30% ์ค์ธ๋ค
Do Large Language Model Understand Multi-Intent Spoken Language ?
SLU(Spoken Language Understanding)์ ๋ํ LLM ํ์ฉ ์ฐ๊ตฌ๋ฅผ ์ํ LM-MixATIS, LM-MixSNIPS ๋ฒค์น๋งํฌ ๋ฐ metric ์ ์
Self-Discover: Large Language Models Self-Compose Reasoning Structures
๋ธ์ด ์ฌ๋ฌ reasoning techniques(CoT, critical thinking, ...) ์ค์์ ํ๋๋ฅผ ์ค์ค๋ก ์ ํํ์ฌ task๋ณ๋ก ์ ํฉํ ์ถ๋ก ์ ๋ต์ ๊ตฌ์ฑํ๋๋ก ํ๋ ํ๋ ์์ํฌ ์ ์. BBH์์ ๋จ์ CoT๋ณด๋ค ์ฑ๋ฅ์ด ์ข๊ณ CoT Self-consistency๋ณด๋ค๋ ์ถ...
Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance
LLM์๊ฒ ์ ๋นํ ์์๋ฐ๋ฅด๊ฒ ์ฟผ๋ฆฌํ๋ฉด ๋ ์ข์ ์ฑ๋ฅ์ด ๋์จ๋ค๋ empirical study.
LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
sLLM(GPT2-small, LLaMA-7B, etc. )์ผ๋ก ํ๋กฌํํธ์์ ๋ถํ์ํ ํ ํฐ์ ์๋ณ>์ ๊ฑฐ(์์ถ), LLM์ ์ฑ๋ฅ ์์ค์ ์ต์ํํ๋ฉด์ ์ต๋ 20๋ฐฐ์ ์์ถ ๋ฌ์ฑ ๊ฐ๋ฅ
rag 27 posts
SimpleMem: Efficient Lifelong Memory for LLM Agents
LLM Agent์ LTM์ semantic lossless compression์ผ๋ก ์ฌ์ ์ํ๊ณ , write-time ๊ตฌ์กฐํยทonline synthesisยทintent-aware retrieval๋ก ์ฑ๋ฅ๊ณผ ํ ํฐ ํจ์จ(์ต๋ 30๋ฐฐ)์ ๊ฐ์ ํ ๋ฉ๋ชจ๋ฆฌ ํ๋ ์์ํฌ ์ ์
LightMem: Lightweight and Efficient Memory-Augmented Generation
sensory > topic-aware short-term > sleep-time long-term memory ์ ๋ฐ์ดํธ์ 3๋จ๊ณ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ ์ ์, LongMemEval ์ ํ๋ ํฅ์ ๋ฐ token/API call/runtime ๋น์ฉ ๋ํญ ์ถ์ ํ์ธ
GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning
RL(GRPO)์ 2๊ฐ์ง constrained reward(RPA + CAF) ์ ์ฉํ์ฌ GraphRAG agent ํ์ต > ๊ฒ์ํ ๋ ์ ๋ ฅ์ผ๋ก triplet๊ณผ ์์ฐ์ด ํ์ด๋ธ๋ฆฌ๋ ํ์ฉํ์ฌ multi-hop QA์์ ํฐ ์ฑ๋ฅ ํฅ์ ํ์ธ
A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts
gist memory์ interactive look-up์ ์ฉํ์ฌ LLM์ด ์ฌ๋์ฒ๋ผ ํ์ํ ๋ถ๋ถ๋ง ๋ค์ ๊ฒ์ํ๋ ๋ฑ์ ๋ฐฉ์์ผ๋ก ์ต๋ 20๋ฐฐ ๋ ๊ธด context๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ prompting ์์คํ ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ๋ก ์ ์
Inference Scaling for Long-Context Retrieval Augmented Generation
LM์ RAG inference ์ฑ๋ฅ ํฅ์์ ์ํ scaling ์ ๋ต์ ์ ์ํ๊ณ , ์ ํจ ์ปจํ ์คํธ ๊ธธ์ด์ ๊ท๋ชจ์ RAG ์ฑ๋ฅ ๊ฐ์ ์ ํ์ ์ธ ๊ด๊ณ๊ฐ ์์์ ํ์ธ
LC-LLM RAG: Long-Context LLMs Meet RAG
LC-LLM์ RAG์์ ์ธ ๋, (1) context ์์๋ฅผ ์ ์ฃผ๊ณ (2) RAG ๋๋์ ํ๋์์ผ์ฃผ๊ณ (3) ๋ช ์์ ์ผ๋ก relevant ์ฌ๋ถ๋ฅผ ํ๋จํ๋๋ก reasoning step ์ฃผ๋ฉด ๋ ์ํ๋ค.
Knowing When to Ask - Bridging Large Language Models and Data
Data Commons (knowledge Graph)๋ฅผ ํ์ฉํ์ฌ LLM ์๋ต์ ์ฌ์ค์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํฅ์์์ผ LLM๊ณผ ์ค์ ๋ฐ์ดํฐ ๊ฐ์ ๊ฒฉ์ฐจ ํด์ํ๋ DataGemma ์๊ฐ
Configurable Foundation Models: Building LLMs from a Modular Perspective
LLM์ ์ธ๊ฐ์ ๋์ ๊ฐ์ด ๊ธฐ๋ฅ์ ๋ชจ๋๋ก ์ ๊ทผํ์๋ ๊ด์ ์ ์ (brick ๋จ์๋ก ๋ถํด)๊ณผ ๊ฒฝํ์ ์คํ ๊ฒฐ๊ณผ ๋ณด๊ณ
Pandoraโs Box or Aladdinโs Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
LLM์ RAG ์ํฉ์์ ๋ค์ํ Noise๋ฅผ ๊ตฌ๋ถํ๊ณ ๋ถ์. ์ ์ตํ Noise์ ๊ฒฝ์ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ๊ฒ์ ํ์ธ. ๋ฒค์น๋งํฌ NoiserBench๋ฅผ ์ ์ํ์ฌ LLM์ Noise ๋์ ํ๊ฐ ๋ฐ ์ ์ตํ noise๋ ํ์ฉํ๊ณ ํด๋ก์ด noise๋ ์ค์ด๋ ๋ฐฉ๋ฒ ์ ์.
Adaptive Retrieval-Augmented Generation for Conversational Systems
์ฃผ์ด์ง ๋ํ์์ ์ ํ์ ์ธ๋ถ ์ง์์ ์ฆ๊ฐ์ด ํ์ํ์ง ์ฌ๋ถ๋ฅผ ์ ํ์ ์ผ๋ก ๊ฒฐ์ ํ๋ ๋งค์ปค๋์ฆ ์ ์
Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
(1) RAG vs. Long-context LLM์ ๋ํด, ์์๋ง ์ถฉ๋ถํ๋ค๋ฉด ๊ฒฐ๊ณผ์ ์ผ๋ก๋ LC LLM์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ผ๋, (2) ๋น์ฉ ์ธก๋ฉด์ ํจ์จ์ ์ํด RAG๋ก routingํ๋ approach, Self-Route ์ ์
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
๋ค์ํ ๋ฌธ์ ์์ฑ + QA pair ๊ตฌ์ฑํ์ฌ ๋ค์ํ ์๋๋ฆฌ์ค์์ LLM์ ์ง์ ์ฌ์ฉ ๋ฅ๋ ฅ ํ๊ฐํ๋ Framework ์ ์
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
๊ฒ์ ๋จ์๊ฐ ๊ธด ๊ฒฝ์ฐ ์ถ์ถ๋๋ ๋จ์ ์๋ฅผ ๋ํญ ์ค์ด๊ธฐ ์ํ long retriever + long reader์ ์
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries
LLM์ด ๋ด๋ถ์ง์ ํจ์ฑํ๊ณ ์ธ๋ถ์ง์(RAG context)๋ง ์ฌ์ฉํ๋ ๋ฐ์ ๊ฐํ ํธํฅ์ด ์๋ค๋ ์ฌ์ค์ ๊ธฐ๊ณ์ ์ผ๋ก(?) ์ถ์
Multi-Head RAG: Solving Multi-Aspect Problems with LLMs
multi-head attention layer๋ฅผ ํ์ฉ, ์ง๊ด์ ์ธ multi-doc RAG ๋ฐ knowledge integration๋ฅผ ์ํ retriever ์ฐ๊ตฌ
Retrieval Head Mechanistically Explains Long-Context Factuality
ํน์ attention head๊ฐ retrieval์ ๋ด๋นํ๋ค
RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems
RAG์ ๋ค์ํ setting ์๋์ ์ต์ ๋ํ ๋ถ์ (retrieverย type,ย readerย model(=Generator),ย contextย selection๋ฑ์ ๋ชจ๋ ๊ณ ๋ ค)
Generative Representational Instruction Tuning
text embedding๊ณผ generation ํตํฉํ๋ Generative Representational Instruction Tuning ์ ์. ๋จ์ผ๋ชจ๋ธ์ธ GritLM์ embedding(MTEB) ๋ฐ generation task(BBH...)์์ ๋ชจ๋ SoTA๋ฅผ ๋ฌ์ฑ.
The Power of Noise: Redefining Retrieval for RAG Systems
RAG์์ Retrieval ์ ์ง์คํ์ฌ, document์ prompt์ ์ฐ๊ด์ฑ, prompt์์ document์ ์์น์ ์ ๋ฑ ๋ค์ํ ์์๋ฅผ ํ๊ฐ.
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models
๊ธฐ์กด RAG ๋ฒค์น๋งํฌ๋ ๋ฒ์์ ๋ค์์ฑ์ด ์ ํ๋์ด ์๊ณ , ๊ฒ์ ์์(retriever)์ ์ธ๋ถ KB์ ์ํฅ์ ๊ณ ๋ คํ์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์๋ค๊ณ ์ง์ ํ๋ฉฐ, RAG Application์ ๋ฒ์๋ฅผ CRUD๋ก ๋ถ๋ฅํ๊ณ ๊ฐ๊ฐ์ ๋ํ ํ๊ฐ task์ ๋ฐ์ดํฐ์ ๊ณต๊ฐ. (์ค๊ตญ์ด)
Corrective Retrieval Augmented Generation
confidence score, web search, knowledge refinement๋ก ์๋ชป ์ฐพ์์จ, ํน์ ์ต์ ์ด ์๋ ๊ฒฐ๊ณผ๋ฅผ self-correctionํ์ฌ ๋ชจ๋ธ ์์ฑ ๊ฒฐ๊ณผ์ hallucination ๊ฐ์
DocLLM: A layout-aware generative language model for multimodal document understanding
multi-modal LLM์์ ์ฐฉ์, LM์ด text์ (์ ํํ๋ document ๋ด์์ ) ์์น์ ๋ณด๋ฅผ input์ผ๋ก ๋ฐ๋๋ก ํ์ฌ internal structured document understanding ๋ฌธ์ ํด๊ฒฐ
Making Large Language Models A Better Foundation For Dense Retrieval
Dense Retrieval์ ์ํด LLM adaptation (2-step template ์ ์ฉ)
LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
sLLM(GPT2-small, LLaMA-7B, etc. )์ผ๋ก ํ๋กฌํํธ์์ ๋ถํ์ํ ํ ํฐ์ ์๋ณ>์ ๊ฑฐ(์์ถ), LLM์ ์ฑ๋ฅ ์์ค์ ์ต์ํํ๋ฉด์ ์ต๋ 20๋ฐฐ์ ์์ถ ๋ฌ์ฑ ๊ฐ๋ฅ
REPLUG: Retrieval-Augmented Black-Box Language Models
์ธ์ด ๋ชจ๋ธ์ ๋ธ๋๋ฐ์ค๋ก ์ทจ๊ธํ๊ณ ๊ฒ์ ๊ตฌ์ฑ์์๋ฅผ ์ ์ฌ์ ์ผ๋ก ์กฐ์ ๊ฐ๋ฅํ ๋ชจ๋๋ก ์ถ๊ฐํ๋ ์๋ก์ด retrieval-Augmented LM ํจ๋ฌ๋ค์ ์ ์
reasoning 17 posts
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
memory consolidation๊ณผ reasoning์ ํ๋์ internal state๋ก ํตํฉํ๋๋ก RL ํ์ตํ์ฌ long-horizon task์์ ๊ฑฐ์ ์ผ์ ํ context size ์ ์งํ๋ฉฐ ์ฑ๋ฅ ํฅ์
Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents
long-horizon task์์ ๋ฐ์ํ๋ planning ์คํจ์ ํต์ฌ ์์ธ์ entanglement๋ก ๊ท์ , ์ด๋ฅผ subtask ๋จ์๋ก ๋ถ๋ฆฌ๋ DAG ๊ธฐ๋ฐ planning์ผ๋ก ํด๊ฒฐํ๋ ๊ฒ์ ์ ์, ์ฑ๋ฅ ํฅ์ ๋ฐ ํ ํฐ ์ ๊ฐ์์ ์ ์
WAIT, WAIT, WAITโฆ Why Do Reasoning Models Loop?
Reasoning ๋ชจ๋ธ์ looping์ decoding artifact๋ง์ด ์๋๋ผ learning errors๊ฐ greedy/low-temp์์ ์ฆํญ๋๋ฉฐ ๋ฐ์, temperature๋ loop๋ฅผ ์ค์ด์ง๋ง ๊ทผ๋ณธ ์์ธ์ ๊ณ ์น์ง ๋ชปํด ๋ถํ์ํ๊ฒ ๊ธด CoT๋ฅผ ์์ฑํ๋ค.
Reasoning with Sampling: Your Base Model is Smarter Than You Think
์ถ๊ฐ ํ์ต ์์ด ๋จ์ MCMC ๊ธฐ๋ฐ ์ํ๋ง๋ง์ผ๋ก LLM์ base model์ด RL๋ก post-training๋ ๋ชจ๋ธ ์์ค์ ์ถ๋ก ๋ฅ๋ ฅ ๋ผ ์ ์๋ค.
SSRL: Self-Search Reinforcement Learning
๊ฒ์์์ง์ด๋ ๋ค๋ฅธ LLM ๋ฑ ์ธ๋ถ tool ์์ด ๊ฒ์์ Full-simulationํด์ RL โ real-world๋ก ์ ์ด ๊ฐ๋ฅํ self-search ๋ชจ๋ธ ๊ตฌ์ถ
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
LRM์ด thinkํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ฌ๋, ๋ณต์ก๋๊ฐ ๋์ผ๋ฉด ์คํจํ๊ฑฐ๋ ์ถ๋ก ๋ ๋นํจ์จ์ ์ผ๋ก(=๋) ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์, ์ง์ ํ ์ผ๋ฐํ ์ถ๋ก ์ฑ๋ฅ์ ๋ถ์กฑํ๋ค.
ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents
LLM-based agent์ reasoning, conversation, action ๊ธฐ๋ฅ์ ํตํฉ, ๋ํํ ํ๊ฒฝ์์ ์ญ๋์ /ํ์ ์ /context-awareํ task-solving์ ๊ฐ๋ฅํ๊ฒ ํ๋ ReSpAct ํ๋ ์์ํฌ ์ ์
Reasoning Models Can Be Effective Without Thinking
reasoning ์์ด reasoning ์ฑ๋ฅ ๋ด๊ธฐ - ํ๋กฌํํธ๋ง ๋ฐ๊ฟ์ ์งง๊ฒ ์ฌ๋ฌ ๋ต๋ณ ์์ฑ์ํค๋๊ฒ ๊ธด CoT๋ณด๋ค ๋์ ์ ์๋ค.
Concise Reasoning via Reinforcement Learning
RL๋ก ํ์ต๋ LLM์ด ๋ถํ์ํ๊ฒ ๊ธด ์ถ๋ก ์ ์์ฑํ์ง๋ง, 2-phrase RL๋ก ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ๊ฐ๊ฒฐํ ์ถ๋ก ์ ์ํฌ ์ ์๋ค.
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding
MLLMs๊ฐ cognitive visual reasoning ํ๋๋ก ํ์ตํ๋ DeepPerception ์ ์+ Knowledge-Intensive Visual Grounding task ์๊ฐ (+ KVG-Bench ๊ณต๊ฐ)
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
LRMs์ด overthinkingํ๊ฒ ๋๋ฉด agentic ํ๊ฒฝ๊ณผ ์ ๋๋ก ์ํธ์์ฉํ์ง ๋ชปํ๋ Reasoning-Action Dilemma๊ฐ ๋ฐ์๋๊ณ , ์ด๋ ์ฑ๋ฅ ํ๋ฝ์ ์ด๋ํ๋ค๋ ๊ฒฐ๊ณผ ๋ณด๊ณ
LIMO - Less is More for Reasoning
์์ง๋ง ์ข์ ๋ฐ์ดํฐ๋ง์ผ๋ก ์๋ฆฌ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ํค๊ธฐ = ๋ชจ๋ธ์ด ์ด๋ฏธ ์๊ณ ์๋ ๊ฑธ ์ ๋์ง์ด๋ด๋ ๊ฒ์ด ์ค์ํ๋ค.
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
o1-like LLMs์ด ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ํ ๋ ๋ถํ์ํ๊ฒ ์ฌ๊ณ ํ๋ฆ์ ์์ฃผ ๋ณ๊ฒฝํ๋ Underthinking ํ์ ๋ถ์
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
Repeated Sampling์ด LLM ์ฑ๋ฅ์์ coverage ์ธก๋ฉด์ ํจ์ฉ์ด ๋งค์ฐ ํฌ๊ณ , ์๋ verification์ด ๊ฐ๋ฅํ ๊ฒฝ์ฐ ์ ํ๋๊น์ง ํฌ๊ฒ ํฅ์์ํจ๋ค.
Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLMโs Reasoning Capability
์ค๋ฅ ์ถ๋ก ์ด ๋ฐ์ํ๋ ๊ณผ์ ์ ์ค์ ์ญํ (์์ธ)์ ํ๋ ํ ํฐ (critical token)์ ์๋ณํ์ฌ ์ด ํ ํฐ์ ๋ชจ๋ธ ์ถ๋ก ๊ฐ์ ์ ์ ์ฉ(cDPO)ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์
Reverse Thinking Makes LLMs Stronger Reasoners
LLM์ด '์ญ๋ฐ์'์ ํ์ตํ๋๋ก ํ๋ จํ๋ฉด ์์, ์ํ, ๋ ผ๋ฆฌ์ ์ถ๋ก ๊ฐ์ task ์ฑ๋ฅ ํฅ์์ ํฐ ๋์. x10๋งํผ์ forward training(standard finetuning)๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ค๊ณ ์ฃผ์ฅ.
Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models
Gemini โ GPT-3.5-turbo, Gemini โฒ GPT-4-Turbo
reinforcement-learning 11 posts
Reasoning with Sampling: Your Base Model is Smarter Than You Think
์ถ๊ฐ ํ์ต ์์ด ๋จ์ MCMC ๊ธฐ๋ฐ ์ํ๋ง๋ง์ผ๋ก LLM์ base model์ด RL๋ก post-training๋ ๋ชจ๋ธ ์์ค์ ์ถ๋ก ๋ฅ๋ ฅ ๋ผ ์ ์๋ค.
GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning
RL(GRPO)์ 2๊ฐ์ง constrained reward(RPA + CAF) ์ ์ฉํ์ฌ GraphRAG agent ํ์ต > ๊ฒ์ํ ๋ ์ ๋ ฅ์ผ๋ก triplet๊ณผ ์์ฐ์ด ํ์ด๋ธ๋ฆฌ๋ ํ์ฉํ์ฌ multi-hop QA์์ ํฐ ์ฑ๋ฅ ํฅ์ ํ์ธ
Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models
policy์ reference-based RM (verifyRM) ์ ๋์์ updateํ๋ RL framework COOPER ์ ์. reward hacking์ ๋ง๊ธฐ ์ํด rule-based positives์ LLM-generated negatives๋ฅผ ํ์ฉํ contras...
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
SFT๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๊ธฐํ๋ค๋ฉด, RL์ Rule-based text/vision reasoning ๋ชจ๋์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฐฐ์ด๋ค.
TTRL: Test-Time Reinforcement Learning
test ๋ฐ์ดํฐ๋ง์ผ๋ก majority-voting์ผ๋ก reward ์ถ์ , ์ด๋ฅผ ํตํด RL ์๋ํ๋ ์ ์ TTRL์ดย reasoning ์ฑ๋ฅ์ x2~x3๊น์ง ๋์ด์ฌ๋ฆด ์ ์๋ค
Concise Reasoning via Reinforcement Learning
RL๋ก ํ์ต๋ LLM์ด ๋ถํ์ํ๊ฒ ๊ธด ์ถ๋ก ์ ์์ฑํ์ง๋ง, 2-phrase RL๋ก ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ๊ฐ๊ฒฐํ ์ถ๋ก ์ ์ํฌ ์ ์๋ค.
Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning
PbRL์ ์ํ ์ ๋์ ์ ํธ๊ธฐ๋ฐ ์ต์ ํ ๋ฐฉ๋ฒ๋ก APPO ์ ์
Planning Like Human: A Dual-process Framework for Dialogue Planning
์ต์ํ ์ํฉ์ ์ฒ๋ฆฌํ๋ intuitive (fast) ์ ์ฑ ๋ชจ๋ธ๊ณผ ์๋ก์ด ์๋๋ฆฌ์ค๋ฅผ ์ํ analytical (slow)์ ์ ์ฑ ๋ชจ๋ธ์ ์ํธ ๋ณด์์ ์ผ๋ก ์ฌ์ฉํ๋ ์ด์ค dialogue planning ํ๋ ์์ํฌ ์ ์
Scaling Laws for Reward Model Overoptimization
RM์ผ๋ก Policy model์ ํ์ตํ๋ฉด ํ์ตํ ์๋ก real (human) preference์ ๊ฒฉ์ฐจ๊ฐ ๋ฒ์ด์ง๋ overoptimization์ด (๋ฐ๋์) ๋ฐ์๋๋ฉฐ, ์ด ํ์์ ๋๋ฌ์ ๋ฆ์ถ๋(?) ๋ฐ์๋ RM์ ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๋๊ฒ ์ ์ํ ์ํฅ์ ๋ผ์น๋ ๊ฒ์ผ๋ก ๋ณด์.
Self-Rewarding Language Models
๋ฐ๋ณต์ ์ธ DPO ํ๋ จ์ผ๋ก ์ฌ๋์ด ์ค๊ณํ reward model์ด ์๋,ย LLM-as-a-Judgeย mechanism์ ์ฌ์ฉ, LM์ด ์์จ์ ์ผ๋ก instruction following & reward modeling > refine ๋ฐ๋ณต.
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
human-annotated data๋ฅผ ๋ ๋ง๋ค์ง ์๋๋ผ๋ weak LLM์ด self-improveํ ์ ์๋ค.
representation-learning 5 posts
MoEE: Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
MoE LLM์ router weight๋ฅผ ํ์ฉํ๋ฉด ๋ณ๋ ์ถ๊ฐ ํ์ต ์์ด decoder-style LLM์์๋ ๊ด์ฐฎ์ representation (embedding) ๋ฝ์ ์ ์๋ค.
Word Translation Without Parallel Data
(token) Embedding Alignment ๋ฅผ ํตํ x-lingual translation ์ฑ๋ฅ ํฅ์
Is Cosine-Similarity of Embeddings Really About Similarity?
cosine-similarity๋ฅผ ์๋ฏธ์ ์ ์ฌ๋๋ฅผ ์ธก์ ํ๋ ์ฒ๋๋ก ๋งน์ ํ์ง๋ ๋ง์์ผ ํ๋ค.
Generative Representational Instruction Tuning
text embedding๊ณผ generation ํตํฉํ๋ Generative Representational Instruction Tuning ์ ์. ๋จ์ผ๋ชจ๋ธ์ธ GritLM์ embedding(MTEB) ๋ฐ generation task(BBH...)์์ ๋ชจ๋ SoTA๋ฅผ ๋ฌ์ฑ.
Improving Text Embeddings with Large Language Models
GPT-3.5, GPT-4๋ฅผ ํ์ฉ, 2-step prompt ์ฌ์ฉํด์ ๋ง๋ synthetic data(94 languages, 500K examples)๋ก decoder-only LLM(Mistral-7B)์ contrastive loss ์ฌ์ฉํด 1-epoch ํ์ต. ์ด unlab...
rl 2 posts
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
Long-horizon LLM agents์ context window bottleneck ํด๊ฒฐ์ ์ํด, ๊ตฌ์กฐํ๋ ๋ฉ๋ชจ๋ฆฌ ์์คํ Indexed Experience Memory์ ์ด๋ฅผ ํ์ตํ๋ MemexRL ์ ์
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
memory consolidation๊ณผ reasoning์ ํ๋์ internal state๋ก ํตํฉํ๋๋ก RL ํ์ตํ์ฌ long-horizon task์์ ๊ฑฐ์ ์ผ์ ํ context size ์ ์งํ๋ฉฐ ์ฑ๋ฅ ํฅ์
sae 2 posts
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
LM (Gemma 2) interpretability๋ฅผ ์ํ Gemma Scope suite ๊ณต๊ฐ์ ๋ฐ๋ฅธ technical Report
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders
๊ธฐ์กด vanilla ReLU๋ฅผ jumpReLU๋ผ๋ ๋น์ฐ์ activation์ผ๋ก ๋์ฒดํ์ฌ ์๋ก์ด SAE (sparse autoencodesr) SOTA, ๋น์ฐ์์ ์ธ activation ์ฌ์ฉํ์ง๋ง straight-through estimator๋ก ํจ๊ณผ์ ์ผ๋ก ํ์ต
safety 4 posts
Safety Layers of Aligned Large Language Models: The Key to LLM Security
๋ค์ํ Aligned LLM์ ๋ด๋ถ ํ๋ผ๋ฏธํฐ์ safety layer๊ฐ ์กด์ฌํ๋ ๊ฒ์ ํ์ธ. safety layer๋ ์ ์์ ์ธ ์ฌ์ฉ์ ์ง์๋ฅผ ์๋ณํ๊ณ ๋ ๊ฑฐ๋ถํ๋ ์ญํ ์ ์ํ. ์ด๋ฅผ ๋ฐํ์ผ๋ก safety๋ฅผ ์ ์งํ๋ Finetuning ๋ฐฉ๋ฒ๋ก SPPFT ์ ์.
Social Learning: Towards Collaborative Learning with Large Language Models
Social Learning์ผ๋ก๋ถํฐ ์ฐฉ์, LLM(Teacher)์ด ๋ค๋ฅธ AI๋ชจ๋ธ(Students)์ ๊ฐ๋ฅด์น๋ ๊ตฌ์กฐ ์ ์, ์ฑ๋ฅ๋ฉด์์ ์ฐจ์ด ์์ด ์์ ์ฑ ์ฆ๊ฐ
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
LLM๋ ๊ธฐ๋ง์ (deceptive)์ผ ์ ์๋ค. LLM์ด ๋์ฑ ์ผ๊ด๋๊ณ ๋ ผ๋ฆฌ์ ์ธ ๊ธฐ๋ง์ ์์ฑํ๋๋ก ํ์ต ๊ฐ๋ฅํ๊ณ , ์ด๋ standard๋ก ์๋ ค์ง safety ํ์ต ๋ฐฉ์์ผ๋ก๋ ์ฒ๋ฆฌ๋์ง ๋ชปํจ.
Weak-to-strong Generalization: Eliciting Strong Capabilities with Weak Supervision
Naively finetune strong pretrained models on labels generated by a weak model consistently perform better than their weak supervisors.
scaling-laws 1 posts
Scaling Laws of Synthetic Data for Language Models
SYNTHLLM ๋ฐฉ์์ผ๋ก ์์ฑํ ํฉ์ฑ๋ฐ์ดํฐ๋ LLM finetuning์ ๋ํด ์์ธก ๊ฐ๋ฅํ๊ณ ํจ๊ณผ์ ์ผ๋ก scale ๋๊ณ , ์์ ํ scaling law์ ๋ฐ๋ผ natural data ๋ถ์กฑ์ ๋ํ ํ์ฅ๊ฐ๋ฅํ ์๋ฃจ์ ์ด ๋๋ค๊ณ ์ฃผ์ฅ
self-improvement 14 posts
Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory
LLM Agent๊ฐ test-time์ ๊ณผ๊ฑฐ ๊ฒฝํ์ ์ค์ค๋ก ์งํ์ํค๋ฉฐ ํ์ตํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ streaming benchmark Evo-Memory ์ ์, ExpRAG / ReMem ๊ฐ์ baseline์ ์ ์ํ์ฌ ๊ฒฝํ ์ฌ์ฌ์ฉ ๊ธฐ๋ฐ ์ฑ๋ฅ ํฅ์์ ๋ํ ๋น๊ต ํ๊ฐ ๊ธฐ๋ฐ ์ ์
RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback
ํด๋ต์ ์ ํ์ฑ ๋ฐ ๊ฐ์ ๊ธฐ์ฌ ํผ๋๋ฐฑ์ ๋ชจ๋ ํ๊ฐํ๋ dual-reward RL-trained critic model์ ๋์ ํ RefCritic ์ ์, ์๋ฆฌ ์ถ๋ก ๊ณผ์ ์์ ํฐ ์ฑ๋ฅ ํฅ์
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
LRM์ด thinkํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ฌ๋, ๋ณต์ก๋๊ฐ ๋์ผ๋ฉด ์คํจํ๊ฑฐ๋ ์ถ๋ก ๋ ๋นํจ์จ์ ์ผ๋ก(=๋) ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์, ์ง์ ํ ์ผ๋ฐํ ์ถ๋ก ์ฑ๋ฅ์ ๋ถ์กฑํ๋ค.
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
Meta info. Authors: Bang Liu, Xinfeng Li, Jiayi Zhang, Jinlin Wang, Tanjin He, Sirui Hong, Hongzhang Liu, Shaokun Zhang, Kaitao Song, Kunlun Zhu, Y...
Scaling Laws of Synthetic Data for Language Models
SYNTHLLM ๋ฐฉ์์ผ๋ก ์์ฑํ ํฉ์ฑ๋ฐ์ดํฐ๋ LLM finetuning์ ๋ํด ์์ธก ๊ฐ๋ฅํ๊ณ ํจ๊ณผ์ ์ผ๋ก scale ๋๊ณ , ์์ ํ scaling law์ ๋ฐ๋ผ natural data ๋ถ์กฑ์ ๋ํ ํ์ฅ๊ฐ๋ฅํ ์๋ฃจ์ ์ด ๋๋ค๊ณ ์ฃผ์ฅ
Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge
์ฌ์ ์ ํ๊ฐ ๊ธฐ์ค์ ์ ๊ณตํ์ง ์๊ณ , ์์ฒด์ ์ผ๋ก ํ๊ฐ ๊ณํ-์คํ-ํ๋จ์ ๋ถ๋ฆฌํ์ฌ ์ํํ๋ Self-training loop์ thinking-llm-as-a-judge framework ์ ์, ์ ์ ๋ฐ์ดํฐ๋ก๋ SOTA ์ฑ๋ฅ๋ฌ์ฑ
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training
Multi-turn ํ๊ฒฝ์์ LLM self-reflection & correction ๊ฐํ frameworkย Agent-Rย ์ ์
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
Repeated Sampling์ด LLM ์ฑ๋ฅ์์ coverage ์ธก๋ฉด์ ํจ์ฉ์ด ๋งค์ฐ ํฌ๊ณ , ์๋ verification์ด ๊ฐ๋ฅํ ๊ฒฝ์ฐ ์ ํ๋๊น์ง ํฌ๊ฒ ํฅ์์ํจ๋ค.
Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation
Divide-and-Conquer ์ ๋ต์ ๊ธฐ๋ฅ์ ํฉ์(functional consensus)๋ฅผ ์ ๋ชฉํ CodeGen framework FUNCODER ์ ์
Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement
instance level๋ก ๊ด์ฐฎ์ ๋ฐ์ดํฐ๋ง ๊ณจ๋ผ ํ์ตํ๊ธฐ๋ณด๋ค, k-means clustering ํ์ฉํ Diversity-Centric Data Selection์ด LLM finetuning์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ํฅ์์ ์ ์ํ๋ค.
SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales
์๊ธฐ ๋ฐ์ฑ์ (?) ๊ทผ๊ฑฐ์ ๋ค์ค ์ถ๋ก chain์ผ๋ก LLM์์ ์ ๋ขฐ๋ ๋ณด์ ์ค๋ฅ๋ฅผ 30% ์ค์ธ๋ค
Self-Rewarding Language Models
๋ฐ๋ณต์ ์ธ DPO ํ๋ จ์ผ๋ก ์ฌ๋์ด ์ค๊ณํ reward model์ด ์๋,ย LLM-as-a-Judgeย mechanism์ ์ฌ์ฉ, LM์ด ์์จ์ ์ผ๋ก instruction following & reward modeling > refine ๋ฐ๋ณต.
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
LM์ด Self-Talk๋ฅผ ํตํด training ๋ฐ์ดํฐ๋ฅผ ์์ฑ>์ ์ >SFT์ ํ์ฉ (bootstrapping). ์ด ๊ณผ์ ์์ ๋ณ๋ชฉ์ ํด์ํ๊ธฐ ์ํด ๋ํ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ์ธก์ ํ๋ automatic metric ์ ์
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
human-annotated data๋ฅผ ๋ ๋ง๋ค์ง ์๋๋ผ๋ weak LLM์ด self-improveํ ์ ์๋ค.
self-learning 1 posts
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
human-annotated data๋ฅผ ๋ ๋ง๋ค์ง ์๋๋ผ๋ weak LLM์ด self-improveํ ์ ์๋ค.
sft 1 posts
Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement
instance level๋ก ๊ด์ฐฎ์ ๋ฐ์ดํฐ๋ง ๊ณจ๋ผ ํ์ตํ๊ธฐ๋ณด๋ค, k-means clustering ํ์ฉํ Diversity-Centric Data Selection์ด LLM finetuning์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ํฅ์์ ์ ์ํ๋ค.
synthetic-data 1 posts
Scaling Laws of Synthetic Data for Language Models
SYNTHLLM ๋ฐฉ์์ผ๋ก ์์ฑํ ํฉ์ฑ๋ฐ์ดํฐ๋ LLM finetuning์ ๋ํด ์์ธก ๊ฐ๋ฅํ๊ณ ํจ๊ณผ์ ์ผ๋ก scale ๋๊ณ , ์์ ํ scaling law์ ๋ฐ๋ผ natural data ๋ถ์กฑ์ ๋ํ ํ์ฅ๊ฐ๋ฅํ ์๋ฃจ์ ์ด ๋๋ค๊ณ ์ฃผ์ฅ
tableqa 1 posts
Knowing When to Ask - Bridging Large Language Models and Data
Data Commons (knowledge Graph)๋ฅผ ํ์ฉํ์ฌ LLM ์๋ต์ ์ฌ์ค์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํฅ์์์ผ LLM๊ณผ ์ค์ ๋ฐ์ดํฐ ๊ฐ์ ๊ฒฉ์ฐจ ํด์ํ๋ DataGemma ์๊ฐ
test-time-scaling 1 posts
TTRL: Test-Time Reinforcement Learning
test ๋ฐ์ดํฐ๋ง์ผ๋ก majority-voting์ผ๋ก reward ์ถ์ , ์ด๋ฅผ ํตํด RL ์๋ํ๋ ์ ์ TTRL์ดย reasoning ์ฑ๋ฅ์ x2~x3๊น์ง ๋์ด์ฌ๋ฆด ์ ์๋ค
time-sensitive 1 posts
Real-time Fake News from Adversarial Feedback
LLM์ fake news๋ฅผ ๋ ์ ์์ฑํ๊ฒ ํ๋ ๋ฐฉ๋ฒ. ํ์ต ์ดํ ๋ฐ์๋๋ ์ฌ๊ฑด์ fake news ํ์ง๋ฅผ ์ํด, adversarial iterative fake news ์์ฑ ํ์ดํ๋ผ์ธ ์ ์
transformers 4 posts
Differential Transformer
Q/K๋ฅผ ๊ฐ๊ฐ ๋ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด 2๊ฐ์ softmax attention map๊ฐ ์ฐจ์ด๋ฅผ ๊ณ์ฐ, relevant context์ ๋ํ attention์ ํค์ฐ๊ณ ๋ ธ์ด์ฆ๋ ์ ๊ฑฐํ๋ ๋ฐฉ์์ transformers ๋ณํ ์ ์, hallucination ๊ฐ์
Selective Attention Improves Transformer
attention ์ฐ์ฐ์์ ํ๋ผ๋ฏธํฐ ๋ณ๊ฒฝ ์์ด, ์์ฑ๋ token์ด ๋ค๋ฅธ token์ด ๋์ด์ ํ์ ์๋ค๊ณ ๊ฒฐ์ ํ ์ ์๋๋ก ์ฒ๋ฆฌ, ๋ฏธ๋ ์์ ์์๋ ํด๋น token์ด ๋ถํ์ํ๋ค๊ณ ํ๋จํ๋ token๋ค์ ๋ํ attention์ ์ค์ด๋ ๋ฐฉ๋ฒ์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๊ณ์ฐ ๋น์ฉ์ ...
Zero-Shot Cross-Domain Dialogue State Tracking via Dual Low-Rank Adaptation
multi-layer๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ transformer ๊ณ์ด ๋ชจ๋ธ์์ prompt๊ฐ ๋ค์ชฝ์ผ๋ก ๊ฐ์๋ก ์ํ์ง๋ ๋ฌธ์ ๋ฅผ ์ํํ๋ DualLoRA ์ ์
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
Claude3-sonet์ ์ค๊ฐ layer์์ ๋์จ Residual stream๋ก Sparse Auto-encoder (SAE) ํ์ต, SAE์ ๊ทธ feature vector ํ์ฉํ์ฌ ํด์ ๊ฐ๋ฅํ ์์ค์ ํน์ฑ ํ์ธ๊ฐ๋ฅ.
translate 1 posts
Word Translation Without Parallel Data
(token) Embedding Alignment ๋ฅผ ํตํ x-lingual translation ์ฑ๋ฅ ํฅ์
unlearning 1 posts
Machine Unlearning Doesnโt Do What You Think: Lessons for Generative AI Policy, Research, and Practice
unlearning์ด genAI๋ฅผ ํต์ ํ ์ ์๋ ๋ฒ์ฉ solution์ด ๋ชป๋๋ค
weight-merging 2 posts
Configurable Foundation Models: Building LLMs from a Modular Perspective
LLM์ ์ธ๊ฐ์ ๋์ ๊ฐ์ด ๊ธฐ๋ฅ์ ๋ชจ๋๋ก ์ ๊ทผํ์๋ ๊ด์ ์ ์ (brick ๋จ์๋ก ๋ถํด)๊ณผ ๊ฒฝํ์ ์คํ ๊ฒฐ๊ณผ ๋ณด๊ณ
Knowledge Fusion of Large Language Models
๊ธฐ์กด์ ๊ฐ๊ธฐ ๋ค๋ฅธ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉด์ ๋ค์ํ ๋ฐฉ์์ผ๋ก ํ์ต๋ ์ฌ๋ฌ LLMs(soucre LLMs)์ ๋ณํฉํด์ ๋ strongํ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ(pic1)์ผ๋ก, ์ฌ๋ฌ LLM์ ์ง์์ ์ธ๋ถํํ์ฌ ๊ทธ๋ค์ capability๋ฅผ ์๋ก์ด LLM(target LLM)์ผ๋ก transferํ๋ ๋ฐฉ๋ฒ์ ...