基于视频基础模型的物理AI世界模拟

发表
taesiritaesiri 提交
作者: NVIDIA, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin CuiYin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun MoKaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

摘要

AI 生成总结
Cosmos-Predict2.5 和 Cosmos-Transfer2.5 是先进的物理 AI 模型,它们统一了文本、图像和视频生成,提高了视频质量和指令对齐,并以更高的保真度实现了 Sim2Real 和 Real2Real 世界转换。
我们推出了[Cosmos-Predict2.5],这是Cosmos世界基础模型家族中物理AI的最新一代。它建立在流式架构之上,将Text2World、Image2World和Video2World生成统一在一个模型中,并利用物理AI视觉-语言模型[Cosmos-Reason1]提供更丰富的文本基础和更精细的世界模拟控制。经过2亿个精选视频片段的训练并通过基于强化学习的后训练进行优化,[Cosmos-Predict2.5]在视频质量和指令对齐方面相较于[Cosmos-Predict1]取得了显著改进,并发布了2B和14B规模的模型。这些能力使得机器人和自主系统能够实现更可靠的合成数据生成、策略评估和闭环模拟。我们进一步扩展了该家族,推出了[Cosmos-Transfer2.5],一个用于Sim2Real和Real2Real世界转换的控制网络式框架。尽管其规模比[Cosmos-Transfer1]小3.5倍,但它提供了更高的保真度和稳健的长时程视频生成。总而言之,这些进步使[Cosmos-Predict2.5]和[Cosmos-Transfer2.5]成为扩展具身智能的多功能工具。为了加速物理AI的研究和部署,我们根据NVIDIA开放模型许可证在https://github.com/nvidia-cosmos/cosmos-predict2.5https://github.com/nvidia-cosmos/cosmos-transfer2.5上发布了源代码、预训练检查点和精选基准。我们希望这些开放资源能够降低采用门槛,并促进构建下一代具身智能的创新。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

我们推出 [Cosmos-Predict2.5],这是 Cosmos 世界基础模型系列中物理 AI 的最新一代。 [Cosmos-Predict2.5] 基于流式架构,将 Text2World、Image2World 和 Video2World 生成统一在一个模型中,并利用物理 AI 视觉-语言模型 [Cosmos-Reason1] 提供更丰富的文本基础和更精细的世界模拟控制。经过 2 亿个精选视频片段的训练,并通过基于强化学习的后训练进行精炼,[Cosmos-Predict2.5] 在视频质量和指令对齐方面比 [Cosmos-Predict1] 有了显著改进,并发布了 2B 和 14B 规模的模型。这些能力使得机器人和自主系统能够实现更可靠的合成数据生成、策略评估和闭环模拟。我们通过 [Cosmos-Transfer2.5] 进一步扩展了该系列,这是一个用于 Sim2Real 和 Real2Real 世界转换的 control-net 风格框架。尽管它比 [Cosmos-Transfer1] 小 3.5 倍,但它提供了更高的保真度和稳健的长时程视频生成。总而言之,这些进步使 [Cosmos-Predict2.5] 和 [Cosmos-Transfer2.5] 成为扩展具身智能的多功能工具。为了加速物理 AI 的研究和部署,我们根据 NVIDIA Open Model License 在 https://github.com/nvidia-cosmos/cosmos-predict2.5https://github.com/nvidia-cosmos/cosmos-transfer2.5 发布了源代码、预训练检查点和精选基准。我们希望这些开放资源能降低采用门槛,并促进具身智能下一代建设的创新。