AsyncVoice Agent:LLM规划与推理的实时解释

发表
Yueqian LinYueqian Lin 提交
作者: Yueqian Lin, Zhengmian Hu, Jayakumar Subramanian, Qinsi Wang, Nikos Vlassis, Hai "Helen" Li, Yiran Chen

摘要

AI 生成总结
AsyncVoice Agent凭借其异步架构,通过实现实时交互和中断模型的推理过程来增强人机协作,显著降低延迟同时保持准确性。
在复杂推理任务上进行有效的人工智能协作要求用户理解和与模型的流程进行交互,而不仅仅是接收输出。然而,像思维链(CoT)这样的方法的单片文本阻碍了这一点,因为目前的界面缺乏实时语音化和强大的用户抢断功能。我们提出了AsyncVoice Agent,一个异步架构将流式LLM后端与对话式语音前端分离。这种设计允许旁白和推理并行运行,使用户能够随时中断、查询和引导模型的推理过程。客观基准测试表明,与单片基线相比,这种方法将交互延迟降低了600多倍,同时确保了高保真度和具有竞争力的任务准确性。通过实现与模型思维过程的双向对话,AsyncVoice Agent为构建更有效、可控和值得信赖的高风险任务人工智能系统提供了一种新范式。
查看 arXiv 页面查看 PDF

评论

Yueqian LinYueqian Lin
论文提交者

分享我们关于使 LLM 推理或规划系统更加透明的最新工作。我们构建了“AsyncVoice Agent”,以提供其实时“出声思考”的推理过程音频解释。