⏶4
模仿物理学家的眼睛:一种以视觉语言模型为中心的物理公式发现方法
发表
由
JiaqiLiu 提交

作者: Jiaqi Liu, Songning Lai, Pengze Li, Di Yu, Wenjie Zhou, Yiyang Zhou, Peng Xia, Zijun Wang, Xi Chen, Shixiang Tang, Lei Bai, Wanli Ouyang, Mingyu Ding, Huaxiu Yao,
Aoran Wang

摘要
从真实世界的观测数据中自动发现物理定律是人工智能领域的一项重大挑战。当前的方法,无论是依赖符号回归还是大型语言模型,都局限于单一模态数据,并且忽略了运动丰富的、视觉化的现象学表示,而这些表示对物理学家来说是不可或缺的。“感官剥夺”严重削弱了它们解读动态现象内在时空模式的能力。为了弥合这一差距,我们提出了VIPER-R1,一个多模态模型,它通过基于视觉的物理方程推理进行视觉归纳,以发现基本的符号公式。它整合了视觉感知、轨迹数据和符号推理,以模仿科学发现的过程。该模型通过运动结构归纳(MSI)的课程进行训练,利用监督微调来解读运动学相位图,并通过因果思维链(C-CoT)来指导假设构建,然后进行奖励引导的符号校准(RGSC),以强化学习来优化公式结构。在推理过程中,训练好的VIPER-R1充当一个代理:它首先提出一个高置信度的符号试探,然后主动调用外部符号回归工具来执行符号残差对齐(SR^2)。这一最后一步,类似于物理学家的扰动分析,将理论模型与经验数据进行协调。为了支持这项研究,我们引入了PhysSymbol,一个包含5,000个实例的新多模态语料库。实验表明,VIPER-R1在准确性和可解释性方面始终优于最先进的VLM基线,能够更精确地发现物理定律。项目页面:https://jiaaqiliu.github.io/VIPER-R1/
从现实世界的观测数据中自动发现物理定律是人工智能领域的一项重大挑战。目前的方法,依赖于符号回归或大型语言模型,仅限于单模态数据,并且忽略了运动丰富的、视觉上的现象学表示,而这对于物理学家来说是不可或缺的。这种“感官剥夺”严重削弱了它们解释动态现象中固有的时空模式的能力。为了弥补这一差距,我们提出了VIPER-R1,一个多模态模型,它执行基于视觉感知的物理方程推理,以发现基本的符号公式。它集成了视觉感知、轨迹数据和符号推理,以模仿科学发现过程。该模型通过运动结构归纳(MSI)课程进行训练,使用监督微调来解释运动学相位图,并由因果思维链(C-CoT)指导假设构建,然后进行奖励引导的符号校准(RGSC),通过强化学习来完善公式结构。在推理过程中,训练好的VIPER-R1充当一个代理:它首先提出一个高置信度的符号ansatz(假设),然后主动调用外部符号回归工具来进行符号残差对齐(SR^2)。最后一步,类似于物理学家的扰动分析,将理论模型与经验数据进行协调。为了支持这项研究,我们引入了PhysSymbol,一个包含5000个实例的新多模态语料库。实验表明,VIPER-R1在准确性和可解释性方面始终优于最先进的VLM基线,从而能够更精确地发现物理定律。项目主页:https://jiaaqiliu.github.io/VIPER-R1/