⏶20

Dimple: 具有并行解码的离散扩散多模态大语言模型

05月22日发表

05月23日由 Runpeng Yu 提交

作者: Runpeng Yu, Xinyin Ma, Xinchao Wang

摘要

在这项工作中，我们提出了 Dimple，第一个离散扩散多模态大型语言模型（DMLLM）。我们观察到，仅使用纯离散扩散方法进行训练会导致显著的训练不稳定、次优性能和严重的长度偏差问题。为了解决这些挑战，我们设计了一种新颖的训练范式，该范式结合了初始的自回归阶段和随后的扩散阶段。这种方法产生了 Dimple-7B 模型，该模型在与 LLaVA-NEXT 相同的数据集上使用相似的训练流程进行训练。Dimple-7B 的性能最终超过 LLaVA-NEXT 3.9%，这表明 DMLLM 可以实现与自回归模型相当的性能。为了提高推理效率，我们提出了一种称为“自信解码”（confident decoding）的解码策略，该策略动态调整每一步生成的 token 数量，显著减少了生成迭代次数。在自回归模型中，生成过程中的前向迭代次数等于响应长度。然而，使用自信解码，Dimple 所需的迭代次数甚至仅为 \text{响应长度}/3。我们还在自回归模型中重新实现了 prefilling 技术，并表明它在大多数基准评估中对性能没有显著影响，同时提供了 1.5 倍到 7 倍的加速。此外，我们探索了 Dimple 使用结构先验精确控制其响应的能力。这些先验使得结构化响应成为可能，其方式与基于指令或思维链的提示方式不同，并允许对响应格式和长度进行细粒度控制，这在自回归模型中很难实现。总的来说，这项工作验证了 DMLLM 的可行性和优势，并提高了其推理效率和可控性。代码和模型可在 https://github.com/yu-rp/Dimple 获取。

查看 arXiv 页面查看 PDF

Runpeng Yu

论文提交者

💧 Dimple-7B 对比 AR:

性能相当
(有时) 更快

🔍 亮点

混合训练: 结合了自回归训练和扩散训练。

扩散解码: 支持置信解码、随机解码、maskgit 式解码和基于熵的解码。

可控生成: 通过结构先验实现对格式、结构和长度的细粒度控制。

类自回归预填充: 使用预填充技术提高推理速度。

Dimple: 具有并行解码的离散扩散多模态大语言模型

摘要

评论