⏶1

让物体发声：交互式物体感知图像到音频生成

06月04日发表

06月05日由 xiaobin zhuang 提交

作者: Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang

摘要

为复杂的音视频场景生成准确的声音极具挑战性，尤其是在存在多个物体和声源的情况下。在本文中，我们提出了一种“交互式物体感知音频生成”模型，该模型将声音生成与用户在图像中选择的视觉物体关联起来。我们的方法将以物体为中心的学习整合到条件潜在扩散模型中，该模型通过多模态注意力学习将图像区域与其对应的声音关联起来。在测试时，我们的模型采用图像分割，允许用户在“物体”级别交互式地生成声音。我们从理论上验证了我们的注意力机制在功能上近似于测试时分割掩码，确保生成的音频与选定物体对齐。定量和定性评估表明，我们的模型优于基线，在物体及其相关声音之间实现了更好的对齐。项目页面：https://tinglok.netlify.app/files/avobject/

查看 arXiv 页面查看 PDF

xiaobin zhuang

论文作者

论文提交者

音频生成

让物体发声：交互式物体感知图像到音频生成

摘要

评论