集体思维:多个并发推理智能体在令牌级粒度上协作

发表
許湛然許湛然 提交
作者: 許湛然Chan-Jan Hsu, Davide Buffelli, Jamie McGowanJamie McGowan, Feng-Ting LiaoFeng-Ting Liao, Yi-Chang (YC) ChenYi-Chang Chen, Sattar VakiliSattar Vakili, Dashan ShiuDa-shan Shiu

摘要

大型语言模型(LLMs)的最新进展展示了通过自生成的思维链进行推理的力量。多个推理智能体可以协作,将联合推理质量提升到高于个体成果的水平。然而,这类智能体通常以回合制方式交互,以增加延迟换取质量提升。在本文中,我们提出了 Group Think——一个充当多个并发推理智能体(或思考者)的单一LLM。通过共享彼此部分生成进度的可见性,Group Think 引入了一种新的并发推理范式,其中多个推理轨迹在 token 级别上动态相互适应。例如,一个推理线程在检测到另一个线程更适合继续时,可能会在句子生成中途改变其生成方向。这种细粒度的、token 级别的协作使 Group Think 能够减少冗余推理,提高质量,同时显著降低延迟。此外,其并发特性允许高效利用空闲计算资源,使其特别适用于边缘推理,在边缘推理中,非常小的批处理大小通常会导致本地 GPU 利用不足。我们提出了一个简单且通用的修改方案,使任何现有的LLM都能在本地GPU上执行 Group Think。我们还提出了一种评估策略来基准测试推理延迟,并经验性地证明了使用未明确为 Group Think 训练的开源LLMs 在延迟方面的改进。我们希望这项工作能为未来的LLMs展示更复杂、更高效的协作行为以实现更高质量的生成铺平道路。
查看 arXiv 页面查看 PDF

评论

許湛然許湛然
论文作者
论文提交者

我们提出了“群体思维”(Group Think):一个单一的大型语言模型(LLM)模拟多个并行的推理智能体,这些智能体通过动态适应彼此的进展在 token 层面进行协作,从而提高性能。