Time-R1: 迈向大语言模型中的全面时间推理

发表
Zijia LiuZijia Liu 提交
作者: Zijia LiuZijia Liu, 韩沛煊Peixuan Han, Haofei YuHaofei Yu, Haoru Li, Jiaxuan You

摘要

大语言模型 (LLMs) 展示了令人印象深刻的能力,但缺乏强大的时间智能,难以将关于过去的推理与对未来的预测和合理的生成相结合。同时,现有方法通常只针对孤立的时间技能,例如回答关于过去事件的问题或基本预测,并且泛化能力差,特别是在处理超出其知识截止日期或需要创造性预见的事件时。为了解决这些局限性,我们引入了 Time-R1,这是第一个赋予中等规模(30亿参数)大语言模型全面时间能力(理解、预测和创造性生成)的框架。我们的方法具有一个新颖的三阶段开发路径;前两个阶段构成一个由精心设计的动态基于规则的奖励系统驱动的强化学习 (RL) 课程。该框架逐步构建 (1) 基于历史数据的基本时间理解和逻辑事件-时间映射,(2) 预测超出其知识截止日期事件的未来事件预测能力,最后 (3) 无需任何微调即可实现向创造性未来情景生成的显著泛化。引人注目的是,实验表明 Time-R1 在极具挑战性的未来事件预测和创造性情景生成基准上,性能超越了体积大200多倍的模型,包括最先进的6710亿参数模型 DeepSeek-R1。这项工作提供了强有力的证据,证明精心设计、渐进式的RL微调可以使更小、更高效的模型实现卓越的时间性能,为通往真正具有时间意识的人工智能提供了一条实用且可扩展的路径。为了促进进一步研究,我们还发布了 Time-Bench,一个源自10年新闻数据的大规模多任务时间推理数据集,以及我们的 Time-R1 系列检查点。
查看 arXiv 页面查看 PDF

评论

Zijia LiuZijia Liu
论文作者
论文提交者
 <img src="https://cdn-uploads.huggingface.co/production/uploads/65d188a4aa309d842e438ef1/TxmV-A3WYyVDS0W7_t0LT.png" alt="Output Examples">

Time-R1 是一个旨在赋予大型语言模型 (LLMs) 全面时间推理能力的框架,使其能够从过去事件中逐步培养出复杂的时间逻辑,预测未来事件,并创造性地生成合理的未来场景。我们使用新颖的三阶段强化学习课程和动态奖励训练了一个 30亿参数的语言模型,在具有挑战性的面向未来任务上,其表现优于大小是其 200 多倍的 SOTA 模型,包括 DeepSeek-R1。

Zijia LiuZijia Liu
论文作者
论文提交者
此评论已隐藏。