看见、指向、飞翔:一种无需学习的VLM框架,用于通用的无人机导航

发表
yuna0x0yuna0x0 提交
作者: Chih Yao Hu, Liam LinYang-Sen Lin, yuna0x0Yuna Lee, Chih-Hai Su, Jie-Ying LeeJie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu

摘要

AI 生成总结
See, Point, Fly (SPF) 是一个无训练的航空视觉和语言导航框架,它将动作预测视为一个 2D 空间定位任务,在仿真和真实世界评估中都优于现有方法。
我们提出了 See, Point, Fly (SPF),这是一个基于视觉语言模型 (VLM) 的免训练航空视觉与语言导航 (AVLN) 框架。SPF 能够根据任何类型的自由格式指令,在任何类型的环境中导航到任何目标。与将动作预测视为文本生成任务的现有 VLM 方法不同,我们的关键见解是将 AVLN 的动作预测视为一个二维空间定位任务。SPF 利用 VLM 将模糊的语言指令分解为对输入图像上的二维航点进行迭代标注。 SPF 结合预测的行驶距离,将预测的二维航点转换为三维位移向量,作为无人机的动作指令。此外,SPF 还自适应地调整行驶距离,以实现更有效的导航。值得注意的是,SPF 以闭环控制的方式进行导航,使无人机能够在动态环境中跟踪动态目标。SPF 在 DRL 模拟基准测试中创造了新的 SOTA 记录,比之前最好的方法绝对领先 63%。在广泛的真实世界评估中,SPF 的表现远远优于强大的基线。我们还进行了全面的消融研究,以突出我们设计选择的有效性。最后,SPF 对不同的 VLM 表现出卓越的泛化能力。项目主页:https://spf-web.pages.dev
查看 arXiv 页面查看 PDF
看见、指向、飞翔:一种无需学习的VLM框架,用于通用的无人机导航

评论

yuna0x0yuna0x0
论文作者
论文提交者

我们很高兴分享我们在 CoRL 2025 上发表的最新研究成果:

See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

See, Point, Fly (SPF) 使无人机能够在任何环境中,根据自由格式的自然语言指令导航到任何目标,而无需进行特定任务的训练。该系统在各种场景下均表现出稳健的性能,包括避障、长程规划和动态目标跟踪。

请访问我们的项目页面和代码库了解更多信息!

项目页面: https://spf-web.pages.dev

GitHub 代码库: https://github.com/Hu-chih-yao/see-point-fly