Cobra: 具有更广泛参考的高效线稿着色

发表
JunhaoZhuangJunhaoZhuang 提交
作者: JunhaoZhuangJunhao Zhuang, Lingen LiLingen Li, Xuan JuXuan Ju, Zhaoyang ZhangZhaoyang Zhang, Chun Yuan, Ying ShanYing Shan

摘要

漫画制作行业需要基于参考的线稿着色,并具有高精度、高效率、上下文一致性和灵活控制。漫画页面通常涉及各种各样的人物、物体和背景,这使得着色过程变得复杂。尽管扩散模型在图像生成方面取得了进展,但它们在线稿着色中的应用仍然有限,面临着处理大量参考图像、耗时的推理和灵活控制等挑战。我们研究了广泛的上下文图像指导对于线稿着色质量的必要性。为了应对这些挑战,我们推出了一种高效且通用的方法 Cobra,它支持颜色提示,并利用 200 多个参考图像,同时保持低延迟。Cobra 的核心是一个因果稀疏 DiT 架构,它利用专门设计的位置编码、因果稀疏注意力和键值缓存来有效管理长上下文参考,并确保颜色身份一致性。结果表明,Cobra 通过广泛的上下文参考实现了准确的线稿着色,显着提高了推理速度和交互性,从而满足了关键的行业需求。我们在我们的项目页面上发布了我们的代码和模型:https://zhuang2002.github.io/Cobra/
查看 arXiv 页面查看 PDF
Cobra: 具有更广泛参考的高效线稿着色
Cobra: 具有更广泛参考的高效线稿着色

评论

JunhaoZhuangJunhaoZhuang
论文作者
论文提交者

论文链接: https://arxiv.org/abs/2504.12240

项目页面: https://zhuang2002.github.io/Cobra/

代码: https://github.com/Zhuang2002/Cobra