CoDA:通过扩散适应进行编码的语言模型

发表
Weiran YaoWeiran Yao 提交
作者: Haolin ChenHaolin Chen, Shiyu Wang, Can QinCan Qin, Bo Pang, Zuxin Liu, Jielin Qiu, Jianguo Zhang, Yingbo Zhou, Zeyuan Chen, Ran Xu, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran YaoWeiran Yao

摘要

AI 生成总结
CoDA 是一款 17 亿参数的扩散编码器,通过置信度引导采样,以更小的模型实现了具有竞争力的性能,并发布了开源工具。
扩散语言模型有望实现自回归编码器所缺乏的双向上下文和填充能力,但实际系统仍然笨重。我们介绍了CoDA,一个在TPU上训练的17亿参数扩散编码器,具有完全开源的训练流水线。CoDA结合了大规模扩散预训练、以代码为中心的中期训练和指令调优,从而实现了置信度引导采样,使推理延迟具有竞争力。在Humaneval、MBPP和EvalPlus上,CoDA-1.7B-Instruct的性能与多达70亿参数的扩散模型相当或超越。我们的发布包括模型检查点、评估框架和TPU训练流水线,以加速轻量级基于扩散的编码助手的研究。
查看 arXiv 页面查看 PDF
CoDA:通过扩散适应进行编码的语言模型

评论

Weiran YaoWeiran Yao
论文提交者

CoDA-1.7B 专为代码编辑 ✍️ 任务而生,同时在整体编码性能上可与 7B 模型媲美。其亮点在于并行解码,在推理时速度极快 ⚡️!

模型、预/中/后训练代码和框架均已开源:

→ 🤗 𝗛𝘂𝗴𝗴𝗶𝗻𝗴 𝗙𝗮𝗰𝗲: https://huggingface.co/Salesforce/CoDA-v0-Instruct
→ 🤖 𝗚𝗶𝘁𝗛𝘂𝗯: https://github.com/SalesforceAIResearch/CoDA/
→ 📑 𝗧𝗲𝗰𝗵 𝗥𝗲𝗽𝗼𝗿𝘁: https://www.arxiv.org/abs/2510.03270