⏶24
MOOSE-Chem2:通过分层搜索探索LLM在细粒度科学假设发现中的极限
发表
由
Zonglin Yang 提交
作者:
Zonglin Yang,
Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie,
Lidong Bing, Wanli Ouyang, Erik Cambria,
Dongzhan Zhou

摘要
大型语言模型(LLM)在自动化科学假说生成方面已展现出潜力,但现有方法主要产生粗粒度假说,缺乏关键的方法学和实验细节。我们引入并正式定义了细粒度科学假说发现这一新颖任务,该任务需要从粗略的初始研究方向生成详细的、可实验操作的假说。我们将此框定为一个组合优化问题,并探讨了在最大限度利用LLM能力时,其解决此问题的上限。具体来说,我们探讨了四个基础问题:(1)如何最好地利用LLM的内部启发式方法来构建其自身认为在所有可能生成的假说中最有前景的细粒度假说,基于其自身的内部评分——从而在假说空间上定义一个潜在奖励景观;(2)LLM判断的更好假说是否与真实假说表现出更强的对齐性;(3)使用具有相似能力的多个不同LLM组成的集成来塑造奖励景观是否比仅重复使用其中最强的LLM来定义景观产生更好的结果;以及(4)由相同LLM组成的集成是否比单个LLM提供更可靠的奖励景观。为了解决这些问题,我们提出了一种分层搜索方法,该方法逐步提出并将细节整合到假说中,从一般概念发展到具体的实验配置。我们证明,这种分层过程平滑了奖励景观并实现了更有效的优化。对来自近期化学文献中专家标注的细粒度假说新基准的实证评估表明,我们的方法持续优于强基线。
我们引入了细粒度科学假设发现任务——使用大型语言模型从粗略的方向自动生成详细的、可进行实验操作的假设。通过将问题建模为潜在 LLM 奖励景观上的组合优化,我们探索了集成评分和分层搜索如何提高假设质量。我们在化学领域的基准驱动评估显示,相对于强基线取得了持续的提升。这项工作拓展了 LLM 在科学发现中的应用前沿。