未来光流预测提升机器人控制与视频生成质量

发表
Kanchana RanasingheKanchana Ranasinghe 提交
作者: Kanchana Ranasinghe, Honglu Zhou, Yu Fang, Luyu Yang, Le Xue, Ran Xu, Caiming Xiong, Silvio Savarese, Michael S Ryoo, Juan Carlos Niebles

摘要

AI 生成总结
一种新型的语言条件光流预测模型结合了视觉语言模型(VLM)和扩散架构,能够从噪声较大的互联网级视频数据中预测未来运动,展示了在机器人操控和视频生成任务中的多功能性。
未来的运动表示(如光流)在控制和生成任务中具有巨大价值。然而,预测具有泛化性的空间密集型运动表示仍是一项核心挑战,且从噪声大的现实数据中学习此类预测的研究仍相对不足。我们推出了 FOFPred,这是一种新型的基于语言条件的光流预测模型,其特点是集成了视觉语言模型(VLM)与扩散(Diffusion)架构。这种独特的结合实现了强大的多模态推理能力,并能以像素级的生成保真度进行未来运动预测。我们的模型在网络规模的人类活动数据上进行训练,这是一种极具扩展性但非结构化的来源。为了从这些带噪声的视频-字幕数据中提取有意义的信号,我们采用了关键的数据预处理技术,以及具有强大图像预训练能力的统一架构。训练后的模型随后被扩展以应对控制和生成中两个截然不同的下游任务。在语言驱动设置下的机器人操作和视频生成评估证明了 FOFPred 的跨领域通用性,确认了统一的 VLM-Diffusion 架构以及从多样化网络数据中进行可扩展学习对于未来光流预测的价值。
查看 arXiv 页面查看 PDF

评论

Kanchana RanasingheKanchana Ranasinghe
论文提交者

我们推出了 FOFPred,一个语言驱动的未来光流预测框架,旨在改进机器人控制和视频生成。FOFPred 不是对运动做出反应,而是以自然语言为条件,预测运动将如何演变。

🌐 项目: fofpred.github.io
📄 论文: arxiv.org/abs/2601.10781
💻 代码: github.com/SalesforceAIResearch/FOFPred
🤗 模型: huggingface.co/Salesforce/FOFPred
🕹️ 演示: fofpred.salesforceresearch.ai