⏶83
沙盒中的大语言模型(LLM-in-Sandbox)激发通用智能体能力
发表
由
Daixuan Cheng 提交
作者:
Daixuan Cheng, Shaohan Huang, Yuxian Gu, Huatong Song, Guoxin Chen,
Li Dong, Wayne Xin Zhao, Ji-Rong Wen, Furu Wei
摘要
AI 生成总结
LLM-in-Sandbox 通过允许大语言模型探索代码沙箱环境,使其能够跨不同领域执行通用智能任务,无需额外训练即可实现强大的泛化能力。我们推出了 LLM-in-Sandbox,使大语言模型能够在代码沙箱(即虚拟计算机)中进行探索,从而激发非代码领域的通用智能。我们首先证明,无需额外训练,强大的 LLM 就能展现出利用代码沙箱处理非代码任务的泛化能力。例如,LLM 会自发访问外部资源获取新知识,利用文件系统处理长上下文,以及执行脚本以满足格式要求。我们进一步表明,通过 LLM-in-Sandbox 强化学习 (LLM-in-Sandbox-RL),这些代理能力可以得到增强,该方法仅使用非代理数据来训练模型进行沙箱探索。实验表明,LLM-in-Sandbox 在免训练和后训练设置下,均在数学、物理、化学、生物医学、长上下文理解和指令遵循方面实现了稳健的泛化。最后,我们从计算和系统角度分析了 LLM-in-Sandbox 的效率,并将其作为 Python 包开源,以促进实际部署。
评论
我制作了一个播客来解释论文中的核心概念:
https://researchpod-share.vercel.app/episode/aa22898a-3a1c-406d-b2b0-79d008c522f5
隆重推出 LLM-in-Sandbox —— 将你的 LLM 置于虚拟计算机中,为非代码任务开启通用的智能体能力!
在化学、长文本 QA、指令遵循等领域取得了显著提升。无需额外训练。
🌐 演示: https://llm-in-sandbox.github.io
💻 代码: https://github.com/llm-in-sandbox/llm-in-sandbox
欢迎提交 Issue 或参与讨论 🤗