⏶73
Alchemist: 将公共文本到图像数据转化为生成式黄金
发表
由
Valerii 提交

作者:
Valerii Startsev,
Alexander Ustyuzhanin,
Alexey Kirillov,
Dmitry Baranchuk,
Sergey Kastryulin





摘要
预训练为文本到图像(T2I)模型提供了广泛的世界知识,但这本身通常不足以实现高美学质量和对齐。因此,监督微调(SFT)对于进一步优化至关重要。然而,其有效性高度依赖于微调数据集的质量。现有的公共 SFT 数据集通常针对狭窄领域(例如,动漫或特定艺术风格),而创建高质量、通用 SFT 数据集仍然是一个重大挑战。当前的数据筛选方法往往成本高昂,并且难以识别真正有影响力的样本。领先模型经常依赖于大型、专有且文档不全的内部数据,导致缺乏公开的通用数据集,这进一步加剧了这一挑战,阻碍了更广泛的研究进展。本文介绍了一种创建通用 SFT 数据集的新颖方法,通过利用预训练生成模型作为高影响训练样本的估计器。我们应用此方法构建并发布了 Alchemist,一个紧凑(3,350 个样本)但非常有效的 SFT 数据集。实验表明,Alchemist 显著提高了五个公共 T2I 模型的生成质量,同时保持了多样性和风格。此外,我们公开发布了微调模型的权重。
大家好!我们非常高兴地宣布我们关于通过更智能的数据集策划改进文本到图像模型的最最新工作!🎨✨
虽然预训练的 T2I 模型拥有广泛的知识,但要实现高质量的输出通常需要在精心策划的数据上进行微调。但是,如何在不花费昂贵的人工成本的情况下识别出最有影响力的样本呢?我们的论文介绍了一种新颖的方法,该方法利用生成模型来估计高价值的训练数据,从而得到了 Alchemist——一个紧凑(3,350 个样本)但功能强大的通用 SFT 数据集。欢迎从我们的仓库使用它:https://huggingface.co/datasets/yandex/alchemist。