⏶42
Mol-R1:迈向分子发现中明确的长链思维推理
发表
由
Weida Wang 提交

作者:
Jiatong Li,
Weida Wang, Qinggang Zhang,
Junxian Li,
Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li


摘要
大型语言模型(LLMs),特别是像DeepSeek-R1和QWQ这样的显式长链思维(CoT)推理模型,已经展示出强大的推理能力,在常识推理和数学推断方面取得了令人印象深刻的性能。尽管它们很有效,但长链思维推理模型经常因其在分子发现等知识密集型领域的能力有限和效率低下而受到批评。在该领域取得成功需要对领域知识的精确理解,包括分子结构和化学原理,这由于分子数据的固有复杂性和高质量专家标注的稀缺性而具有挑战性。为了弥补这一差距,我们引入了Mol-R1,这是一个旨在提高R1类显式长链思维推理LLMs在基于文本的分子生成中的可解释性和推理性能的新型框架。我们的方法始于通过上下文蒸馏(PRID)的先验规整策略精心策划的高质量推理数据集,这是一种专门的蒸馏策略,可以有效地生成由先验规整引导的配对推理轨迹。在此基础上,我们引入了MoIA,分子迭代适应,这是一种复杂的训练策略,它迭代地将监督微调(SFT)与强化策略优化(RPO)相结合,旨在提高R1类推理模型在分子发现中的推理性能。最后,我们考察了Mol-R1在基于文本的分子推理生成任务中的性能,显示出优于现有基线的性能。
评论

论文作者
论文提交者
感谢您的反馈!🙏 我明白您说的从头开始训练的文本→SMILES模型——但那些是没有任何推理步骤的直接生成,所以它们基本上是黑箱。
Mol-R1 采用了不同的方法:我们在给出答案前增加了一个完整的思维链(Chain-of-Thought),这样你就能看到化学推理过程,及早发现错误,并真正信任结果。这种可解释性在真实的分子发现中至关重要。
我们讨论的是同一个任务——text2SMILES。不同之处在于 Mol-R1 通过长思维链使推理过程变得明确,因此它是可审计的。在这种基于文本的设定中,Mol-R1 在精确匹配(EM)/BLEU/指纹相似度方面优于强大的文本大语言模型基线,并增加了一项过程层面的检查(一致性 F1 分数)。不带思维链的直接文本→SMILES方法可以追求有效性,但它仍然是一个黑箱——Mol-R1 的目标是准确性+可解释性,而不仅仅是有效性。
Mol-R1 通过 Prior-Regulated In-Context Distillation (PRID) 以及 MoIA 内的迭代 SFT/RPO,将显式长链式思维推理引入分子生成中,平衡可解释性和准确性,并在有限注释下实现稳健的增益。