⏶21
Hyper-Bagel: 用于多模态理解和生成的一体化加速框架
发表
由
taesiri 提交

作者:
Yanzuo Lu,
Xin Xia,
Manlin Zhang, Huafeng Kuang,
Jianbin Zheng, Yuxi Ren, Xuefeng Xiao
摘要
AI 生成总结
Hyper-Bagel 使用推测解码和多阶段蒸馏来加速多模态理解和生成任务,在保持高质量输出的同时实现了显著的速度提升。统一的多模态模型最近因其在联合理解和生成各种内容方面的卓越能力而受到广泛关注。然而,随着上下文整合越来越多的交错多模态 token,扩散去噪和自回归解码的迭代过程会带来巨大的计算开销。为了解决这个问题,我们提出了 Hyper-Bagel,一个统一的加速框架,旨在同时加速多模态理解和生成任务。我们的方法采用分而治之策略,使用投机解码进行下一个 token 预测,并使用多阶段蒸馏过程进行扩散去噪。该框架带来了显著的性能提升,在多模态理解方面实现了超过 2 倍的速度提升。对于生成任务,我们生成的无损 6-NFE 模型在文本到图像生成方面实现了 16.67 倍的速度提升,在图像编辑方面实现了 22 倍的速度提升,同时保留了原始模型的高质量输出。我们还开发了一个高效的 1-NFE 模型,可以实现近乎实时的交互式编辑和生成。通过结合先进的对抗性蒸馏和人类反馈学习,该模型实现了最终的成本效益和响应速度,使复杂的多模态交互无缝且即时。
统一的多模态模型最近因其在联合理解和生成多样化内容方面的卓越能力而备受关注。然而,随着上下文整合越来越多的交错多模态 token,扩散去噪和自回归解码的迭代过程会带来显著的计算开销。为解决此问题,我们提出了 Hyper-Bagel,一个统一的加速框架,旨在同时加速多模态理解和生成任务。我们的方法采用了分而治之的策略,利用推测性解码进行下一个 token 预测,并利用多阶段蒸馏过程进行扩散去噪。该框架带来了显著的性能提升,在多模态理解方面实现了超过 2 倍的加速。对于生成任务,我们最终的无损 6-NFE 模型在文本到图像生成方面实现了 16.67 倍的加速,在图像编辑方面实现了 22 倍的加速,同时保留了原始模型的高质量输出。我们进一步开发了一个高度高效的 1-NFE 模型,可实现近乎实时的交互式编辑和生成。通过结合先进的对抗性蒸馏和人类反馈学习,该模型实现了终极的成本效益和响应速度,使复杂的多模态交互无缝且即时。