⏶1
ByteMorph:非刚性运动的指令引导图像编辑基准测试
发表
由
Di Chang 提交

作者:
Di Chang,
Mingdeng Cao, Yichun Shi, Bo Liu,
Shengqu Cai, Shijie Zhou, Weilin Huang,
Gordon Wetzstein,
Mohammad Soleymani,
Peng Wang

摘要
通过指令编辑图像以反映非刚性运动、相机视点变化、对象变形、人体关节活动和复杂交互,是计算机视觉中一个具有挑战性但尚未充分探索的问题。现有方法和数据集主要侧重于静态场景或刚性变换,限制了它们处理涉及动态运动的表达性编辑的能力。为了弥补这一空白,我们引入了ByteMorph,一个专注于非刚性运动的基于指令的图像编辑综合框架。ByteMorph包含一个大规模数据集ByteMorph-6M和一个基于扩散变换器(DiT)构建的强大基线模型,名为ByteMorpher。ByteMorph-6M包含超过600万对高分辨率图像编辑对用于训练,以及一个精心策划的评估基准ByteMorph-Bench。两者都涵盖了各种环境、人像和物体类别中的各种非刚性运动类型。该数据集通过运动引导数据生成、分层合成技术和自动化标注构建,以确保多样性、真实性和语义一致性。我们还对学术界和商业领域最近的基于指令的图像编辑方法进行了全面评估。

我们推出了ByteMorph,这是一个全面的基于指令的图像编辑框架,重点关注非刚性运动。ByteMorph 包含一个大规模数据集ByteMorph-6M和一个名为ByteMorpher的基线模型。ByteMorph-6M 包含超过600万对高分辨率图像编辑对用于训练,以及一个精心策划的评估基准ByteMorph-Bench。两者都捕捉了各种非刚性运动类型,涵盖不同的环境、人物和物体类别。
项目主页: https://boese0601.github.io/bytemorph
在线演示: https://huggingface.co/spaces/Boese0601/ByteMorph-Demo
基准: https://huggingface.co/datasets/ByteDance-Seed/BM-Bench
数据集: https://huggingface.co/datasets/ByteDance-Seed/BM-6M
代码: https://github.com/ByteDance-Seed/BM-code
模型: https://huggingface.co/ByteDance-Seed/BM-Model
数据示例: https://huggingface.co/datasets/ByteDance-Seed/BM-6M-Demo
排行榜: https://boese0601.github.io/bytemorph/#leaderboard