沙盒中的大语言模型(LLM-in-Sandbox)激发通用智能体能力

发表
Daixuan ChengDaixuan Cheng 提交
作者: Daixuan ChengDaixuan Cheng, Shaohan Huang, Yuxian Gu, Huatong Song, Guoxin Chen, Li DongLi Dong, Wayne Xin Zhao, Ji-Rong Wen, Furu Wei

摘要

AI 生成总结
LLM-in-Sandbox 通过允许大语言模型探索代码沙箱环境,使其能够跨不同领域执行通用智能任务,无需额外训练即可实现强大的泛化能力。
我们推出了 LLM-in-Sandbox,使大语言模型能够在代码沙箱(即虚拟计算机)中进行探索,从而激发非代码领域的通用智能。我们首先证明,无需额外训练,强大的 LLM 就能展现出利用代码沙箱处理非代码任务的泛化能力。例如,LLM 会自发访问外部资源获取新知识,利用文件系统处理长上下文,以及执行脚本以满足格式要求。我们进一步表明,通过 LLM-in-Sandbox 强化学习 (LLM-in-Sandbox-RL),这些代理能力可以得到增强,该方法仅使用非代理数据来训练模型进行沙箱探索。实验表明,LLM-in-Sandbox 在免训练和后训练设置下,均在数学、物理、化学、生物医学、长上下文理解和指令遵循方面实现了稳健的泛化。最后,我们从计算和系统角度分析了 LLM-in-Sandbox 的效率,并将其作为 Python 包开源,以促进实际部署。
查看 arXiv 页面查看 PDF

评论

Daixuan ChengDaixuan Cheng
论文作者
论文提交者

隆重推出 LLM-in-Sandbox —— 将你的 LLM 置于虚拟计算机中,为非代码任务开启通用的智能体能力!

在化学、长文本 QA、指令遵循等领域取得了显著提升。无需额外训练。

🌐 演示: https://llm-in-sandbox.github.io
💻 代码: https://github.com/llm-in-sandbox/llm-in-sandbox

pip install llm-in-sandbox

欢迎提交 Issue 或参与讨论 🤗

NoahNoah

我制作了一个播客来解释论文中的核心概念:
https://researchpod-share.vercel.app/episode/aa22898a-3a1c-406d-b2b0-79d008c522f5