⏶2
视频模型有多自信?赋予视频模型表达其不确定性的能力
发表
由
taesiri 提交

作者: Zhiting Mei, Ola Shorinwa, Anirudha Majumdar
摘要
AI 生成总结
引入了一个用于生成视频模型中不确定性量化的框架,包括一个校准指标、一个名为 S-QUBED 的黑盒方法和一个基准数据集,展示了改进的不确定性估计和任务准确性。生成式视频模型展示了令人印象深刻的文本到视频能力,并在许多实际应用中得到了广泛应用。然而,与大型语言模型(LLM)一样,视频生成模型倾向于产生幻觉,即使在事实错误的情况下也能生成看似合理的视频。尽管 LLM 的不确定性量化(UQ)在先前工作中得到了广泛研究,但尚无针对视频模型的不确定性量化方法,这引发了关键的安全问题。据我们所知,本文是首个致力于量化视频模型不确定性的工作。我们提出了一种用于生成视频模型不确定性量化的框架,该框架包括:(i) 一种基于鲁棒秩相关估计且无需严格建模假设的视频模型校准评估指标;(ii) 一种用于视频模型的黑盒 UQ 方法(称为 S-QUBED),它利用潜在建模将预测不确定性严格分解为其随机不确定性和认知不确定性组成部分;以及 (iii) 一个 UQ 数据集,用于促进视频模型校准的基准测试。通过在潜在空间中条件化生成任务,我们分离了由于任务规范模糊引起的不确定性与由于知识不足引起的不确定性。通过在基准视频数据集上进行大量实验,我们证明 S-QUBED 计算出的校准总不确定性估计值与任务准确性呈负相关,并有效地计算了随机不确定性和认知不确定性成分。
生成式视频模型展示了令人印象深刻的文本到视频能力,并在许多实际应用中得到广泛采用。然而,与大型语言模型(LLM)一样,视频生成模型倾向于产生幻觉,即使事实错误也生成看似合理的视频。尽管 LLM 的不确定性量化(UQ)在之前的研究中得到了广泛研究,但目前还没有针对视频模型的不确定性量化方法,这引起了关键的安全问题。据我们所知,本文代表了第一个致力于量化视频模型不确定性的工作。我们提出了一个用于生成视频模型不确定性量化的框架,包括:(i)一个基于鲁棒秩相关估计且无需严格建模假设的视频模型校准评估指标;(ii)一个用于视频模型的黑盒 UQ 方法(称为 S-QUBED),它利用潜在建模将预测不确定性严格分解为偶然不确定性和认知不确定性成分;(iii)一个 UQ 数据集,以促进视频模型校准的基准测试。通过在潜在空间中条件化生成任务,我们分离了由于任务规范模糊引起的不确定性与由于知识缺乏引起的不确定性。通过在基准视频数据集上进行广泛的实验,我们证明 S-QUBED 计算出的校准总不确定性估计与任务准确性呈负相关,并能有效计算偶然和认知成分。