ComfyMind: 基于树形规划和反应式反馈的通用生成方法

发表
Xinli XUXinli XU 提交
作者: litao GuoLitao Guo, Xinli XUXinli Xu, luozhou wangLuozhou Wang, JIANTAO LINJiantao Lin, Jinsong Zhou, Zixin Zhang, Bolan Su, Yingcong ChenYing-Cong Chen

摘要

随着生成模型的快速发展,通用生成作为一种在单个系统中统一跨模态多样任务的有前景的方法,日益受到关注。尽管取得了进展,现有的开源框架往往仍然脆弱,并且由于缺乏结构化的工作流规划和执行层面的反馈,难以支持复杂的实际应用。为了解决这些限制,我们提出了 ComfyMind,一个基于 ComfyUI 平台构建的协作式 AI 系统,旨在实现稳健且可扩展的通用生成。ComfyMind 引入了两项核心创新:语义工作流接口(Semantic Workflow Interface, SWI),将低级节点图抽象为用自然语言描述的可调用功能模块,从而实现高级组合并减少结构错误;以及带有局部反馈执行的搜索树规划机制,该机制将生成建模为分层决策过程,并允许在每个阶段进行自适应修正。这些组件共同提高了复杂生成工作流的稳定性和灵活性。我们在三个公共基准(ComfyBench、GenEval 和 Reason-Edit)上评估了 ComfyMind,这些基准涵盖了生成、编辑和推理任务。结果表明,ComfyMind 持续优于现有的开源基线,并取得了与 GPT-Image-1 相当的性能。ComfyMind 为开源通用生成式 AI 系统的发展开辟了一条有前景的道路。项目页面:https://github.com/LitaoGuo/ComfyMind
查看 arXiv 页面查看 PDF

评论

Xinli XUXinli XU
论文作者
论文提交者
此评论已隐藏。
Xinli XUXinli XU
论文作者
论文提交者

🔗 Github 代码: https://github.com/LitaoGuo/ComfyMind

🌐 项目页面: https://litaoguo.github.io/ComfyMind.github.io/

🧪 在线演示: 几天后发布。敬请关注!🎉