⏶20
Dimple: 具有并行解码的离散扩散多模态大语言模型
发表
由
Runpeng Yu 提交
作者: Runpeng Yu, Xinyin Ma, Xinchao Wang
摘要
在这项工作中,我们提出了 Dimple,第一个离散扩散多模态大型语言模型(DMLLM)。我们观察到,仅使用纯离散扩散方法进行训练会导致显著的训练不稳定、次优性能和严重的长度偏差问题。为了解决这些挑战,我们设计了一种新颖的训练范式,该范式结合了初始的自回归阶段和随后的扩散阶段。这种方法产生了 Dimple-7B 模型,该模型在与 LLaVA-NEXT 相同的数据集上使用相似的训练流程进行训练。Dimple-7B 的性能最终超过 LLaVA-NEXT 3.9%,这表明 DMLLM 可以实现与自回归模型相当的性能。为了提高推理效率,我们提出了一种称为“自信解码”(confident decoding)的解码策略,该策略动态调整每一步生成的 token 数量,显著减少了生成迭代次数。在自回归模型中,生成过程中的前向迭代次数等于响应长度。然而,使用自信解码,Dimple 所需的迭代次数甚至仅为 \text{响应长度}/3。我们还在自回归模型中重新实现了 prefilling 技术,并表明它在大多数基准评估中对性能没有显著影响,同时提供了 1.5 倍到 7 倍的加速。此外,我们探索了 Dimple 使用结构先验精确控制其响应的能力。这些先验使得结构化响应成为可能,其方式与基于指令或思维链的提示方式不同,并允许对响应格式和长度进行细粒度控制,这在自回归模型中很难实现。总的来说,这项工作验证了 DMLLM 的可行性和优势,并提高了其推理效率和可控性。代码和模型可在 https://github.com/yu-rp/Dimple 获取。
💧 Dimple-7B 对比 AR:
性能相当
(有时) 更快
🔍 亮点
混合训练: 结合了自回归训练和扩散训练。
扩散解码: 支持置信解码、随机解码、maskgit 式解码和基于熵的解码。
可控生成: 通过结构先验实现对格式、结构和长度的细粒度控制。
类自回归预填充: 使用预填充技术提高推理速度。