精准配色:融合感知色彩空间与文本嵌入,提升扩散生成质量

发表
taesiritaesiri 提交
作者: Sung-Lin, TsaiSung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai

摘要

AI 生成总结
一个无需训练的框架使用大型语言模型来消除颜色词的歧义并提炼文本嵌入,以提高文本到图像生成中的颜色准确性。
文本到图像 (T2I) 生成中的准确色彩对齐对于时尚、产品可视化和室内设计等应用至关重要,但当前的扩散模型在处理细微和复合颜色术语(例如,蒂芙尼蓝、青柠绿、亮粉色)时存在困难,常常生成与人类意图不符的图像。现有方法依赖于交叉注意力操纵、参考图像或微调,但未能系统地解决模糊的颜色描述。为了在提示模糊的情况下精确渲染颜色,我们提出了一种无需训练的框架,该框架利用大型语言模型 (LLM) 来消除颜色相关的提示的歧义,并直接在文本嵌入空间中引导颜色混合操作,从而提高颜色保真度。我们的方法首先使用大型语言模型 (LLM) 来解决文本提示中的模糊颜色术语,然后根据 CIELAB 颜色空间中生成的颜色术语的空间关系来优化文本嵌入。与先前的方法不同,我们的方法在不要求额外训练或外部参考图像的情况下提高了颜色准确性。实验结果表明,我们的框架在不损害图像质量的情况下提高了颜色对齐度,弥合了文本语义与视觉生成之间的差距。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

文本到图像 (T2I) 生成中的准确颜色对齐对于时尚、产品可视化和室内设计等应用至关重要,然而当前的扩散模型在处理细微和复合颜色术语(例如,蒂芙尼蓝、荧光绿、亮粉色)时存在困难,常常生成与人类意图不符的图像。现有方法依赖于交叉注意力操纵、参考图像或微调,但未能系统地解决模糊的颜色描述。为了在提示模糊的情况下精确渲染颜色,我们提出了一种无需训练的框架,该框架通过利用大型语言模型 (LLM) 来消除颜色相关提示的歧义,并直接在文本嵌入空间中指导颜色混合操作,从而增强颜色保真度。我们的方法首先使用大型语言模型 (LLM) 来解决文本提示中模糊的颜色术语,然后根据所得颜色术语在 CIELAB 颜色空间中的空间关系来细化文本嵌入。与之前的方法不同,我们的方法在不需要额外训练或外部参考图像的情况下提高了颜色准确性。实验结果表明,我们的框架在不影响图像质量的情况下提高了颜色对齐度,弥合了文本语义和视觉生成之间的差距。