⏶27

Cobra: 具有更广泛参考的高效线稿着色

04月16日发表

04月17日由 JunhaoZhuang 提交

作者: Junhao Zhuang, Lingen Li, Xuan Ju Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan

摘要

漫画制作行业需要基于参考的线稿着色，并具有高精度、高效率、上下文一致性和灵活控制。漫画页面通常涉及各种各样的人物、物体和背景，这使得着色过程变得复杂。尽管扩散模型在图像生成方面取得了进展，但它们在线稿着色中的应用仍然有限，面临着处理大量参考图像、耗时的推理和灵活控制等挑战。我们研究了广泛的上下文图像指导对于线稿着色质量的必要性。为了应对这些挑战，我们推出了一种高效且通用的方法 Cobra，它支持颜色提示，并利用 200 多个参考图像，同时保持低延迟。Cobra 的核心是一个因果稀疏 DiT 架构，它利用专门设计的位置编码、因果稀疏注意力和键值缓存来有效管理长上下文参考，并确保颜色身份一致性。结果表明，Cobra 通过广泛的上下文参考实现了准确的线稿着色，显着提高了推理速度和交互性，从而满足了关键的行业需求。我们在我们的项目页面上发布了我们的代码和模型：https://zhuang2002.github.io/Cobra/。

查看 arXiv 页面查看 PDF

JunhaoZhuang

论文作者

论文提交者

论文链接: https://arxiv.org/abs/2504.12240

项目页面: https://zhuang2002.github.io/Cobra/

代码: https://github.com/Zhuang2002/Cobra

Cobra: 具有更广泛参考的高效线稿着色

摘要

评论