ParallelBench:理解扩散 LLM 中并行解码的权衡

发表
Seunghyuk OhSeunghyuk Oh 提交
作者: Wonjun Kang, Kevin Galim, Seunghyuk Oh, Min Jae LeeMinjae Lee, Yuchen Zeng, Shuibai Zhang, Coleman Hooper, Yuezhou Hu, Hyung Il Koo, Nam Ik Cho, Kangwook Lee

摘要

AI 生成总结
扩散 LLM 中的并行解码由于忽略了 token 依赖性而降低了生成质量,这凸显了对新的解码方法和基准测试的需求。
虽然大多数自回归 LLM 都受限于逐个生成,但扩散 LLM (dLLM) 因其通过并行解码显著加速推理的潜力而引起了人们的广泛兴趣。尽管有这种前景,dLLM 中的条件独立性假设导致并行解码忽略了 token 依赖性,当这些依赖性很强时,不可避免地会降低生成质量。然而,现有研究在很大程度上忽略了这些固有的挑战,并且在标准基准测试(例如,数学和编码)上的评估不足以捕捉并行解码造成的质量下降。为了弥补这一差距,我们首先对并行解码进行了信息论分析。然后,我们从数据分布和解码策略两个角度对解析上可处理的合成列表操作进行了案例研究,提供了量化见解,突出了并行解码的基本局限性。基于这些见解,我们提出了 ParallelBench,这是第一个专门为 dLLM 设计的基准,它包含了对于人类和自回归 LLM 来说很简单,但对于 dLLM 在并行解码下却极其具有挑战性的实际任务。使用 ParallelBench,我们系统地分析了 dLLM 和自回归 LLM,揭示了:(i)在实际场景中,并行解码下的 dLLM 可能会遭受严重的质量下降,以及(ii)当前的并行解码策略难以根据任务难度调整其并行度,从而在不影响质量的情况下无法实现有意义的加速。我们的发现强调了创新解码方法迫切需要克服当前的速度-质量权衡。我们发布了我们的基准,以帮助加速真正高效的 dLLM 的开发。
查看 arXiv 页面查看 PDF

评论

Seunghyuk OhSeunghyuk Oh
论文提交者

扩散语言模型(dLLMs)有望通过并行解码实现更快的生成。然而,这种速度通常是以牺牲质量为代价的,因为它们会忽略 token 依赖性,而现有基准未能充分捕捉这一问题。为了解决这个问题,我们引入了 ParallelBench,这是第一个旨在通过人类和自回归(AR)LLMs 轻松解决但会导致 dLLMs 随着并行度增长而崩溃的现实任务来严格测试这一权衡的基准。我们发布 ParallelBench,以推动研究朝着能够克服这一挑战的真正高效的 dLLMs 发展。项目主页