⏶51
ComfyUI-R1: 探索用于工作流生成的推理模型
发表
由
Zhenran Xu 提交
作者:
Zhenran Xu,
Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
摘要
AI 生成内容已从单一模型演变为模块化工作流,特别是在 ComfyUI 等平台上,
实现了创意流程的定制化。然而,创建有效工作流需要高超的专业知识来协调众多专业组件,
给用户带来了陡峭的学习曲线。为了解决这一挑战,我们引入了 ComfyUI-R1,
这是首个用于自动化工作流生成的大型推理模型。我们以精心策划的 4K 工作流数据集为基础,
构建了长链式思维(CoT)推理数据,包括节点选择、工作流规划和代码级工作流表示。
ComfyUI-R1 通过两阶段框架进行训练:(1) CoT 微调用于冷启动,使模型适应 ComfyUI 领域;
(2) 强化学习以激励推理能力,由细粒度规则-度量混合奖励指导,确保格式有效性、结构完整性和节点级准确性。
实验表明,我们 70 亿参数的模型实现了 97% 的格式有效率,以及高通过率、节点级和图级 F1 分数,
显著超越了使用 GPT-4o 和 Claude 系列等领先闭源模型的现有最先进方法。
进一步分析强调了推理过程的关键作用以及将工作流转换为代码的优势。
定性比较揭示了我们在合成包含多样化节点的复杂工作流方面的优势,强调了长链式思维推理在 AI 艺术创作中的潜力。
评论
论文作者
论文提交者
是的(一旦克隆了 ComfyUI-Copilot)。
您可以在 ComfyUI-Copilot 插件的自动化工作流构建功能中试用 ComfyUI-R1 模型 (https://github.com/AIDC-AI/ComfyUI-Copilot)。
隆重推出 ComfyUI-R1 🚀——大型推理模型与自动化AI艺术工作流的结合! 🎨
🔹 97% 格式有效性 & 在节点/图准确性方面超越 GPT-4o 和 Claude
🔹 已集成到 ComfyUI-Copilot 🛠️ 中 (https://github.com/AIDC-AI/ComfyUI-Copilot)