CoTox:基于思维链的分子毒性推理与预测

发表
Yein ParkYein Park 提交
作者: Jueon Park, Yein ParkYein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang

摘要

药物毒性仍然是药物开发中的一个主要挑战。最近的机器学习模型改进了计算机毒性预测,但它们对带注释数据的依赖以及缺乏可解释性限制了它们的应用。这限制了它们捕获由复杂生物机制驱动的器官特异性毒性的能力。大型语言模型(LLMs)通过逐步推理和文本数据整合提供了一个有前途的替代方案,但之前的方法缺乏生物学背景和透明的原理。为了解决这个问题,我们提出了 CoTox,一个新颖的框架,它将 LLM 与思维链(CoT)推理相结合,用于多毒性预测。CoTox 结合了化学结构数据、生物通路和基因本体论(GO)术语,通过逐步推理生成可解释的毒性预测。使用 GPT-4o,我们发现 CoTox 优于传统的机器学习和深度学习模型。我们进一步检查了它在各种 LLM 中的性能,以确定 CoTox 何时最有效。此外,我们发现用 IUPAC 名称表示化学结构,这比 SMILES 更容易让 LLM 理解,增强了模型的推理能力并提高了预测性能。为了证明其在药物开发中的实际效用,我们模拟了用药物处理相关细胞类型,并将由此产生的生物背景整合到 CoTox 框架中。这种方法使 CoTox 能够生成与生理反应一致的毒性预测,如案例研究所示。这一结果突出了基于 LLM 的框架在提高可解释性和支持早期药物安全评估方面的潜力。这项工作中使用到的代码和提示可在 https://github.com/dmis-lab/CoTox 获得。
查看 arXiv 页面查看 PDF
CoTox:基于思维链的分子毒性推理与预测

评论

Yein ParkYein Park
论文作者
论文提交者

LLM能否评估分子毒性?💊💀

在药物开发过程中,识别化合物是否具有毒性至关重要。

我们引入了CoTox,一个利用LLM进行分子毒性预测的新颖框架。

与传统仅依赖分子结构的模型不同,CoTox整合了化学结构、生物通路和GO术语来预测六种器官特异性毒性,包括心脏毒性、肝毒性和肾毒性。

通过使用思维链提示,CoTox为每个预测生成逐步推理,提供透明且可解释的解释,说明化合物为何可能具有毒性。

有趣的是,我们还发现,在与LLM交互时,IUPAC名称比SMILES效果更好,这得益于其人类可读的格式。

我们的发现将CoTox定位为早期药物开发中一种可解释且实用的工具。