工程领域的LLMs:教会模型设计高性能火箭

发表
Toby SimondsToby Simonds 提交
作者: Toby SimondsToby Simonds

摘要

大语言模型(LLMs)已经改变了软件工程,但它们在物理工程领域的应用仍未得到充分探索。本文通过 RocketBench 评估了 LLMs 在高功率火箭设计中的能力,RocketBench 是一个将 LLMs 连接到高保真火箭模拟的基准测试。我们在两个日益复杂的设计任务上测试了这些模型:目标高度优化和精确着陆挑战。我们的研究结果表明,虽然最先进的 LLMs 展示了强大的基线工程知识,但在获得模拟结果后,它们难以迭代改进设计,最终停留在低于人类的表现水平。然而,当通过强化学习(RL)增强时,我们发现一个 70 亿参数的模型超越了最先进的基础模型和人类专家。这项研究表明,经过 RL 训练的 LLMs 可以作为复杂工程优化的有效工具,潜在地改变软件开发以外的工程领域。
查看 arXiv 页面查看 PDF

评论

Toby SimondsToby Simonds
论文作者
论文提交者

大语言模型 (LLMs) 已经彻底改变了软件工程,但它们在物理工程领域的应用仍未得到充分探索。本文通过 RocketBench 评估了 LLMs 在高功率火箭设计方面的能力,RocketBench 是一个将 LLMs 连接到高保真火箭模拟的基准。我们在两个复杂度逐渐增加的设计任务上测试了模型:目标高度优化和精确着陆挑战。我们的发现表明,虽然最先进的 LLMs 表现出强大的基础工程知识,但在给定模拟结果后,它们难以迭代改进其设计,并最终停滞在低于人类表现水平。然而,当结合强化学习 (RL) 后,我们表明一个 7B 参数模型表现优于最先进的基础模型和人类专家。这项研究表明,经强化学习训练的 LLMs 可以作为复杂的工程优化的有效工具,有可能潜在地改变软件开发之外的工程领域。