手动解码的终结:迈向真正端到端语言模型

发表
Tian LanTian Lan 提交
作者: zhichaowangZhichao Wang, madongyangDongyang Ma, tim huangXinting Huang, Deng Cai, Tian LanTian Lan, Jiahao Xu, Haitao Mi, XiaoyingTANGXiaoying Tang, Yan WangYan Wang

摘要

AI 生成总结
AutoDeco 是一种新颖的架构,通过动态预测解码参数实现端到端生成,其性能优于默认策略,并接近经过预言机调优的基线。
LLM 的“端到端”标签是一个错误的名称。实际上,它们依赖于一个不可微分的解码过程,需要费力地手动调整超参数,如温度和 top-p。本文介绍了 AutoDeco,一种新颖的架构,通过学习控制自身的解码策略来实现真正的“端到端”生成。我们用轻量级头部增强了标准 Transformer,该头部在每一步动态预测上下文特定的温度和 top-p 值以及下一个令牌 logits。这种方法将解码转换为一个参数化的、令牌级别的过程,允许模型在单个前向传播中自调节其采样策略。通过在八个基准测试上进行的大量实验,我们证明 AutoDeco 不仅显著优于默认解码策略,而且实现了与通过“破解测试集”获得的预言机调优基线相当的性能——这是任何静态方法的实际上限。至关重要的是,我们发现了一种基于指令的解码控制的紧急能力:模型学习解释自然语言命令(例如,“以低随机性生成”)并逐令牌调整其预测的温度和 top-p,从而开启了可控和交互式 LLM 解码的新范式。
查看 arXiv 页面查看 PDF

评论

Tian LanTian Lan
论文作者
论文提交者

AutoDeco 是一个框架,它为大型语言模型(LLM)添加了词元级自适应解码参数预测功能。通过在预训练模型之上添加轻量级预测头,AutoDeco 可以在解码过程中动态预测每个词元的最佳温度和 top-p 参数。

Github: https://github.com/Zacks917/AutoDeco
Huggingface Models: https://huggingface.co/collections/Jadeislaw/autodeco

CipherX LabsCipherX Labs
此评论已隐藏。
Jason WestonJason Weston

这项工作应该引用:https://arxiv.org/abs/2411.09661:

通过潜在偏好优化进行自适应解码

在语言模型解码过程中,众所周知,使用更高温度采样会产生更具创造性的响应,而较低温度则更具事实准确性。然而,这些模型通常应用于通用指令遵循,其中涉及创造性和事实探索任务,并在所有示例和标记中都使用单一固定温度。在这项工作中,我们引入了自适应解码,这是一种添加到模型中的层,可以在推理时在标记或示例级别动态选择采样温度,以优化性能。为了学习其参数,我们引入了潜在偏好优化 (LPO),这是一种训练离散潜在变量(如温度选择)的通用方法。我们的方法在需要不同温度的一系列任务(包括 UltraFeedback、创意故事写作和 GSM8K)中优于所有固定解码温度。

Yan WangYan Wang
论文作者

您好 Jason,

感谢您的评论。Jack 昨天通过电子邮件联系了我们,我们已经与他取得了联系。

我们感谢您们两位提请我们注意这项高度相关的工作——这是我们在文献调查中的疏忽。正如我们已告知他的,我们正在准备我们论文的更新版本,预计将在两周内发布到 arXiv 上。在这次修订中,我们一定会包含一个讨论,分析我们两种方法之间的联系和差异。

再次感谢您确保我们知晓。

Jason WestonJason Weston

谢谢!