TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models
- Authors: Tong Guan, Zijie Meng, Dianqi Li, Shiyu Wang, Chao-Han Huck Yang, Qingsong Wen, Zuozhu Liu, Sabato Marco Siniscalchi, Ming Jin, Shirui Pan
- Paper: https://arxiv.org/abs/2509.24803
- Code: https://github.com/AntonGuan/TimeOmni-1
- Affiliation: Griffith University, Zhejiang University, NVIDIA Research, Squirrel Ai Learning, University of Palermo, NTNU
- Conference: ICLR 2026
TL; DR
์๊ณ์ด ์ถ๋ก ์ ์ํ ํฌ๊ด์ benchmark TSR-Suite์ SFT+RL 2๋จ๊ณ ํ์ต ๊ธฐ๋ฐ์ ํตํฉ ์ถ๋ก ๋ชจ๋ธ TimeOmni-1์ ์ ์. GPT-4.1 ๋๋น causal discovery ์ ํ๋ +40.6% ๋ฌ์ฑ

Background
- ์๊ณ์ด ๋ฐ์ดํฐ๋ ์๋์ง, ๊ธ์ต ๋ฑ ์ค์ธ๊ณ ์ ๋ฐ์ ๊ฑธ์ณ ์ฌ์ฉ๋์ง๋ง, LLM์ pretraining ๊ณผ์ ์์ temporal prior๋ฅผ ๊ฑฐ์ ์ต๋ํ์ง ๋ชปํจ
- ๊ธฐ์กด ์ ๊ทผ์ ๋ฐ์ ๋ฐฉํฅ:
- TSFM (Moirai, Time-MoE, Chronos ๋ฑ): ๋๊ท๋ชจ pretraining ๊ธฐ๋ฐ forecasting foundation model. textual event ์ฒ๋ฆฌ ๋ถ๊ฐ, multi-task ๋ถ๊ฐ
- TSLM (ChatTS, Time-MQA ๋ฑ): LLM์ ์๊ณ์ด QA์ ์ ์์ํค์ง๋ง, ํจํด ๋งค์นญ ์์ค์ผ๋ก ์ง์ ํ reasoning ์์
- ์ต๊ทผ DeepSeek-R1 ํจ๋ฌ๋ค์์ ์ฐจ์ฉํ TSRM (Time-R1 ๋ฑ)์ด ๋ฑ์ฅํ์ง๋ง, ์ฌ์ ํ single-task ์คํ์ ๊ตญํ
- ๊ธฐ์กด TSQA ๋ฐ์ดํฐ์
(Time-MQA)์ ๊ตฌ์กฐ์ ํ๊ณ (Fig 1):
- ์ถ๋ก ํ์์ฑ ์์: reasoning model์ด non-reasoning model ๋๋น ์ด๋ ์๊ณ , ๋ชจ๋ ๋ชจ๋ธ์ด 75% ์ด์ ๋ฌ์ฑ โ ๋๋ฌด ์ฌ์ด task (Fig 1 (a), (b))
- ๋งฅ๋ฝ ๋ถ์ถฉ๋ถ: โhigh vs. low volatilityโ ๊ฒฝ๊ณ ์๋ ๋ชจํธํ ์ ํ์ง โ ์ถ๋ก ์ด ์๋ ์ถ์ธก์ ๊ฐ์ ; SFT ํ์๋ 65% ์ดํ์์ plateau (Fig 1 (c), (d))
Problem States
์ง์ ํ reasoning์ ์๊ตฌํ๋ task ์ค๊ณ๋ฅผ ์ํ ๋ ๊ฐ์ง ์์น ์ ์:
- Principle 1 (์ถ๋ก ํ์์ฑ): reasoning model(RM)์ด non-reasoning model(NRM)์ ์ ์๋ฏธํ๊ฒ ์์์ผ ํจ
- Principle 2 (๋งฅ๋ฝ ์ถฉ๋ถ์ฑ): reasoning capacity๊ฐ ๋ฌดํํด๋ ๋งฅ๋ฝ์ด ๋ถ์กฑํ๋ฉด random guess ์์ค
๋ ์์น์์ ๋์ถ๋๋ ํด๊ฒฐ ๊ณผ์ :
- ๋ ์์น์ ๋์์ ๋ง์กฑํ๋ reasoning-critical time series ๋ฐ์ดํฐ ๋ถ์ฌ
- ๋ฒ์ฉ TSRM ํ์ต์ ์ํ ๊ฒ์ฆ๋ ํ๋ จ ๊ฒฝ๋ก ๋ถ์ฌ (๊ธฐ์กด ์ ๊ทผ์ task/dataset๋ง๋ค ๊ฐ๋ณ ๋ชจ๋ธ)
Suggestions
Problem Formulation
Time series reasoning์ ๋ค์๊ณผ ๊ฐ์ด ์ ์: ์ค๊ฐ rationale R์ ์์ฑํ ํ ์ต์ข ๋ต๋ณ y๋ฅผ ์ถ๋ ฅํ๋ ๊ณผ์
\[(R, y) \sim p_\theta(R, y \mid X, C) = p_\theta(R \mid X, C) \cdot p_\theta(y \mid R, X, C)\]- RM:
<think>โฆ</think><answer>โฆ</answer>ํ์์ผ๋ก ์ถ๋ ฅ - NRM:
<answer>โฆ</answer>๋ง ์ถ๋ ฅ
์ด ๋ถ๋ฆฌ ๋๋ถ์ ๋ ๋ชจ๋ธ ๊ฐ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ช ํํ ์ธก์ ํ ์ ์๊ณ , Principle 1์ ์ ๋ ๊ฒ์ฆ์ด ๊ฐ๋ฅํด์ง
TSR-Suite: Time Series Reasoning Suite
perception โ extrapolation โ decision-making 3๋จ๊ณ ์ธ์ง ๋ฅ๋ ฅ์ ์ปค๋ฒํ๋ 4๊ฐ task๋ก ๊ตฌ์ฑ (Fig 2):
- Task 1 [Scenario Understanding]: Perception ๋ฅ๋ ฅ / Multi-domain / Multi-choice
- Task 2 [Causality Discovery]: Perception ๋ฅ๋ ฅ / River discharge (CausalRivers) ๋๋ฉ์ธ / Multi-choice
- ์ถ๋ก ํ๋ฆ: trend consistency โ key fluctuation alignment โ causal direction (โsmall rivers flow into big riversโ ๋๋ฉ์ธ ๊ท์น)
- Task 3 [Event-aware Forecasting]: Extrapolation ๋ฅ๋ ฅ / ์ธ๊ฐ ์ด๋ยท์ ๋ ฅ ๋ถํ ๋๋ฉ์ธ / Sequence output
- Task 4 [Decision Making]: Decision-making ๋ฅ๋ ฅ / ๊ฑด๋ฌผ ์๋์ง (CityLearn) ๋๋ฉ์ธ / Multi-choice
Hierarchical CoT Annotation ํ์ดํ๋ผ์ธ (Fig 3):
LLM Analyzer (๊ตฌ์กฐํ ํ ํ๋ฆฟ ์ฌ์ฉ) โ Human Reviewer (๋งฅ๋ฝ ์ถฉ๋ถ์ฑ ๊ฒํ ) โ LLM Rewriter
- LLM๊ณผ ์ธ๊ฐ ๋ชจ๋ ์คํจํ ์ํ์ ํ๊ธฐ
- Task 3 ํน์ด์ฌํญ: ground-truth hint๋ก ์์ฑํ chain์ด ์คํ๋ ค SFT ์ฑ๋ฅ ํ๋ฝ
- Tab 6 ๊ธฐ์ค ID MAE 24.53 (hint ์ฌ์ฉ) vs. 15.10 (LLM ์์ฒด ์์ฑ)
- curriculum learning ์์น๊ณผ ์ผ์น: ๋ชจ๋ธ ํ์ฌ ๋ฅ๋ ฅ๋ณด๋ค ์ฝ๊ฐ ์ด๋ ค์ด ๋ฐ์ดํฐ๊ฐ ์ต์
TimeOmni-1: 2๋จ๊ณ ํ์ต
Stage 1 โ SFT๋ก temporal prior ์ฃผ์
๊ณ์ธต์ CoT ๋ฐ์ดํฐ๋ก 4๊ฐ task์ ๋ํ CoT-SFT ์ํ
Finding #1: <1K seed ์ํ๋ง์ผ๋ก Task 2 ์ ํ๋ +46.1% (base ๋ชจ๋ธ 21.6% = random guess 33.3% ๋ฏธ๋ง์ผ๋ก ๋ถ๊ดด)Finding #2: ์ธ๊ฐ์ด ์ค๊ณํ ๊ตฌ์กฐํ ํ ํ๋ฆฟ์ด ํต์ฌ โ GPT-4.1 zero-shot Task 2: 28.7% โ ํ ํ๋ฆฟ ์ ์ฉ ์ 71.1% (Fig 5)
Stage 2 โ RL (GRPO)๋ก ์ถ๋ก ์ ์
Task ๋ง์ถคํ outcome-based reward ์ค๊ณ:
- $R_{\text{format}}$:
<think>โฆ</think><answer>โฆ</answer>ํ์ ์ค์ - $R_{\text{discrete}} \in {0, 1}$: Task 1/2/4 exact match
- $R_{\text{count}} = 0.1$: Task 3 ์ํ์ค ๊ธธ์ด ์ผ์น ๋ณด๋์ค (Stage 1 ์ฒดํฌํฌ์ธํธ์์ ๊ธธ์ด ์ฑ๊ณต๋ฅ ์ด 55.7%์ ๋ถ๊ณผํ๊ธฐ ๋๋ฌธ)
-
Task 3 MAE โ exponential decay๋ก ์ ๊ทํ๋ ๋ณด์ ๋ฒ์์ ๋งคํ
Finding #3: Stage 1 ์์ด RL๋ง ์ ์ฉ ์ ํจ๊ณผ ๋ฏธ๋ฏธํ๊ฑฐ๋ ์คํ๋ ค ํ๋ฝ (Task 4: -5.3%) โ Stage 1 prior๊ฐ ์ ์ ์กฐ๊ฑด (Fig 6)
Joint Training
4๊ฐ task ํตํฉ ํ์ต์ผ๋ก โtrain-once, use-across-tasksโ ํจ๋ฌ๋ค์ ์ค์ฆ (Fig 7):
- zero-shot capability transfer: decision-making ACC 25.5% โ 26.2% โ 31.3% (perception/extrapolation prior ์์ฐจ ์ถ๊ฐ ์, Fig 7(a))
- supervised capability supplement: 40.9% โ 45.7% โ 47.9% (Fig 7(b))
- ๊ธฐ์กด single-task ํ์ดํ๋ผ์ธ(TimeMaster: 6๊ฐ ๋ฐ์ดํฐ์
์ 6๊ฐ ๋ชจ๋ธ ๋ณ๋)๊ณผ ๋๋น
Finding #4์ค์ฆ (Fig 7(c))
Effects
Experimental Setup
- Base Model: Qwen2.5-7B-Instruct
- Time-series input: ์๊ณ์ด ๊ฐ์ ํ
์คํธ๋ก ์ง๋ ฌํ (serialization)
- ViT์ ํด๋นํ๋ ๋ฒ์ฉ time series encoder๊ฐ ์์ง ์๊ธฐ ๋๋ฌธ; Time-R1, Time-MQA์ ๋์ผํ ๋ฐฉ์
- External Benchmarks:
- MTBench: ์ค์ ์ฃผ์ยท๊ธฐ์ ์๊ณ์ด, ์๊ฐ ๋ฒ์๋ณ QA
- TimeSeriesExam: ํฉ์ฑ ์๊ณ์ด 5๊ฐ task (ground truth ๋ช ํ์ฑ์ ์ํด ํฉ์ฑ ๋ฐ์ดํฐ ์ฌ์ฉ)
- CaTS-Bench: ์๊ณ์ดโ์์ฐ์ด alignment ๋ฅ๋ ฅ ์ธก์ , retrieval ๋ฅ task
- DROP / GPQA / ReClor: ์์น ์ถ๋ก / ๋ํ์๊ธ ์ ๋ฌธ ์ง์ / ๋ ผ๋ฆฌ ์ถ๋ก ๋ฒค์น๋งํฌ
- Metrics: ๋ชจ๋ ์งํ๋ valid response์ ๋ํด์๋ง ์ฐ์
- Success Rate (SR): ์ ํจ ์๋ต ๋น์จ โ ํนํ ๋ชจ๋ธ๋ค์ ์ฆ์ ํฌ๋งท ์คํจ ๋๋ฌธ์ ๋ณ๋ ๋ณด๊ณ (ChatTS: Task 3์์ SR 0%)
- ACC (Task 1/2/4): exact match
- MAE (Task 3): ๋ฎ์์๋ก ์ข์
Results
Main Table (Tab 1)
- GPT-4.1 ๋๋น causal discovery ์ ํ๋: +40.6% (ID) / +28.1% (OOD)
- ๊ธฐ์กด TS ํนํ ๋ชจ๋ธ๋ค์ ๋ฎ์ SR์ด ๋๋๋ฌ์ง: ChatTS๋ Task 3์์ SR 0% (์ซ์ ์ํ์ค ๋์ ์์ ํ์ ํ ์คํธ ์์ฑ)
- Task 3 OOD MAE(145.53) vs. ID MAE(14.30): NYC ํ์ โ ์ ๋ ฅ ๋ถํ ๋๋ฉ์ธ ์ํํธ์์ ์ฌ์ ํ ์ฐจ์ด๊ฐ ํฐ ๊ฒ ํ์ธ
ํ์ต ๋จ๊ณ๋ณ ablation (Tab 2)
- Task 2 ANS-SFT vs. CoT-SFT: 30.5% vs. 67.7%
- answer-only supervision์ ๋ถํฌ๋ง ๋ง์ถ๊ณ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ธฐ๋ฅด์ง ๋ชปํจ
- CoT-SFT + RL: ์ task์์ ๊ฐ์ฅ ๊ท ํ ์กํ ์ฑ๋ฅ
์ผ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ๋ณด์กด (Fig 8)
- DROP(์์น ์ถ๋ก ), GPQA(๋ํ์ ์์ค), ReClor(๋ ผ๋ฆฌ ์ถ๋ก )์์ base ๋๋น ํ๊ท +16.5%
- ์๊ณ์ด ํนํ ํ์ต์ด ์ผ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํด์น์ง ์์์ ํ์ธ
Personal note. ์ด ๋ ผ๋ฌธ์ ์์๋ ์ง์ง ์ถ๋ก ์ ์๊ตฌํ๋ task๊ฐ ๋ฌด์์ธ์ง๋ฅผ ์๋ฐํ๊ฒ ์ ์ํ๋ ค ํ ์๋๊ฐ ์๋๊ฐ ์ถ์ต๋๋ค. ๋ณ๊ฑด์ผ ์๋ ์๊ธด ํ๋ฐ, ์๊ณ์ด ์ถ๋ก ๊ณผ personalized tool-calling์ ํ๋ฉด์ ์ผ๋ก ๋งค์ฐ ๋ค๋ฅธ ๋ฌธ์ ์ง๋ง, ํต์ฌ ๊ตฌ์กฐ๊ฐ ๋์ผํ๋ค๊ณ ๋ ์๊ฐํ์ต๋๋ค. ๊ด์ธก ํ์คํ ๋ฆฌ์์ ์ ์ฌ ํจํด์ ์ถ๋ก ํ๊ณ ๊ทธ ํจํด์ ๋ฏธ๋ ํ๋์ ๋ฐ์ํ๋ ๊ฑฐ๋ผ๊ณ ๋ณผ ์๋ ์์ผ๋ฏ๋กโฆ? ์ ์๋ TSR-Suite์ Task 4(Decision Making)์ด ๊ฒฐ๊ตญ ๊ณผ๊ฑฐ ์๊ณ์ด ํจํด์ ์ถ๋ก ํด ์ต์ ์ ๋ต์ ์ ํํ๋ ๊ตฌ์กฐ๋, Preference Inference/Transfer๊ฐ ๊ณผ๊ฑฐ ์ธ์ ํ์คํ ๋ฆฌ์์ ์ ์ฌ ์ ํธ๋๋ฅผ ์ถ๋ก ํด API ์ธ์๋ฅผ ๊ฒฐ์ ํ๋ ๊ตฌ์กฐ์ ๋ํ์ด์ง ์์๊น ์ถ๊ธฐ๋ ํฉ๋๋ค.