⏶8
STITCH:用于口语模型的结合分块推理的同时思考与对话
发表
由
Cheng-Han Chiang 提交
作者:
Cheng-Han Chiang,
Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
摘要
口语语言模型(SLM)旨在接收语音输入并生成语音响应。然而,目前的SLM缺乏在响应前进行内部、无声思考过程的能力。相比之下,人类通常在内部进行复杂的心理推理,从而能够清晰简洁地表达思想。因此,将无声思考过程整合到SLM中是非常理想的。尽管天真地在开始说话前生成一个完整的思维链(CoT)推理可以使SLM进行思考,但这会为语音响应带来额外的延迟,因为CoT推理的长度可以是任意的。为了解决这个问题,我们提出了Stitch,一种新颖的生成方法,它在无声推理块和语音响应块的生成之间交替进行。由于语音响应块的音频持续时间远长于生成语音响应块中token所需的时间,我们利用剩余的空闲时间来生成无声推理token。当一段音频播放给用户时,模型继续生成下一个无声推理块,实现同步思考和说话。值得注意的是,Stitch在设计上无法生成无声CoT的基线模型相比,其延迟与其相匹配,同时在数学推理数据集上性能超越这些基线模型15%;Stitch在非推理数据集上的表现也与那些基线模型同样出色。一些动画和演示可在项目页面查看:https://d223302.github.io/STITCH。
我们提出了STITCH,一种能让口语模型(SLM)融入未表达的思考过程的方法,并使SLM能够同时思考和说话。项目主页上有一些演示和动画:https://d223302.github.io/STITCH/
中文版介绍: https://d223302.github.io/STITCH/index_zh.html