同行评测精度:创建用于微调视觉模型的基础数据集(基于 DataSeeds 的标注图像)

发表
Emet ResearchEmet Research 提交
作者: Sajjad AbdoliSajjad Abdoli, Emet ResearchFreeman Lewin, Gediminas VasiliauskasGediminas Vasiliauskas, Fabian SchonholzFabian Schonholz

摘要

现代人工智能(AI)模型,特别是应用于计算机视觉和图像生成任务的扩散模型,其开发方法论正经历一场范式转变。传统上,该领域由“模型为中心”的方法主导,性能提升主要通过日益复杂的模型架构和超参数优化来实现。如今,业界正认识到一种更细致入微的“数据为中心”的方法。这种新兴框架将训练数据的质量、结构和相关性置于突出位置,视其为模型性能的主要驱动力。为实现这一范式转变,我们推出了DataSeeds.AI样本数据集(简称“DSD”),该数据集最初包含约10,610张高质量、经人类同行排名的摄影图像,并附有详尽的多层级标注。DSD是一个基础性的计算机视觉数据集,旨在为商业图像数据集开创新的标准。DSD仅占DataSeed.AI逾1亿张图像目录的一小部分,但它为稳健的商业和多模态AI开发提供了必要的可扩展基础。通过这项深入的探索性分析,我们记录了DSD在特定模型上相对于已知基准所产生的量化改进,并公开了我们评估中使用的代码和训练好的模型。
查看 arXiv 页面查看 PDF

评论

Emet ResearchEmet Research
论文作者
论文提交者

DSD 是一个基础的计算机视觉数据集,旨在为商业图像数据集开创新的标准。DSD 仅占 DataSeed.AI 亿级以上图像目录的一小部分,它为稳健的商业和多模态 AI 开发提供了必要的可扩展基础。通过这项深入的探索性分析,我们记录了 DSD 在特定模型上相对于已知基准所产生的定量改进,并公开发布了我们评估中使用的代码和训练模型。