⏶27
Cobra: 具有更广泛参考的高效线稿着色
发表
由
JunhaoZhuang 提交
作者:
Junhao Zhuang,
Lingen Li,
Xuan Ju,
Zhaoyang Zhang, Chun Yuan,
Ying Shan
摘要
漫画制作行业需要基于参考的线稿着色,并具有高精度、高效率、上下文一致性和灵活控制。漫画页面通常涉及各种各样的人物、物体和背景,这使得着色过程变得复杂。尽管扩散模型在图像生成方面取得了进展,但它们在线稿着色中的应用仍然有限,面临着处理大量参考图像、耗时的推理和灵活控制等挑战。我们研究了广泛的上下文图像指导对于线稿着色质量的必要性。为了应对这些挑战,我们推出了一种高效且通用的方法 Cobra,它支持颜色提示,并利用 200 多个参考图像,同时保持低延迟。Cobra 的核心是一个因果稀疏 DiT 架构,它利用专门设计的位置编码、因果稀疏注意力和键值缓存来有效管理长上下文参考,并确保颜色身份一致性。结果表明,Cobra 通过广泛的上下文参考实现了准确的线稿着色,显着提高了推理速度和交互性,从而满足了关键的行业需求。我们在我们的项目页面上发布了我们的代码和模型:https://zhuang2002.github.io/Cobra/。


论文链接: https://arxiv.org/abs/2504.12240
项目页面: https://zhuang2002.github.io/Cobra/
代码: https://github.com/Zhuang2002/Cobra