与AI聊天:实时视频通信从人到AI的惊人转变

发表
JiangkaiJiangkai 提交
作者: JiangkaiJiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang

摘要

AI 视频聊天作为一种实时通信(RTC)的新范式正在兴起,其中一方并非人类,而是一个多模态大语言模型(MLLM)。这使得人与 AI 之间的交互更加直观,如同与真人面对面聊天一般。然而,这给延迟带来了重大挑战,因为 MLLM 推理占据了大部分响应时间,留给视频流的时间非常少。由于网络的不确定性和不稳定性,传输延迟成为一个关键瓶颈,阻碍了 AI 达到真人般的体验。为了解决这个问题,我们提出了 Artic,一个面向 AI 的实时通信框架,探索了网络需求从“人类观看视频”到“AI 理解视频”的转变。为了在保持 MLLM 准确性的同时显著降低比特率,我们提出了上下文感知视频流(Context-Aware Video Streaming),该技术能够识别视频中每个区域对于聊天的重要性,并几乎只将比特率分配给对聊天重要的区域。为了避免数据包重传,我们提出了抗丢包自适应帧率(Loss-Resilient Adaptive Frame Rate),它利用前一帧来替代丢失/延迟的帧,同时避免比特率浪费。为了评估视频流质量对 MLLM 准确性的影响,我们构建了第一个基准,命名为退化视频理解基准(Degraded Video Understanding Benchmark, DeViBench)。最后,我们讨论了 AI 视频聊天中的一些开放问题和正在进行的解决方案。
查看 arXiv 页面查看 PDF

评论

JiangkaiJiangkai
论文作者
论文提交者

AI视频聊天作为一种新型的实时通信(RTC)范式应运而生,其中一方不是人类,而是多模态大型语言模型(MLLM)。这使得人与AI之间的交互更加直观,如同与真人面对面聊天。然而,这给延迟带来了巨大挑战,因为MLLM推理占据了大部分响应时间,留给视频流的时间非常少。由于网络的不确定性和不稳定性,传输延迟成为阻碍AI像真人一样交流的关键瓶颈。为了解决这个问题,我们提出了Artic,一个面向AI的实时通信框架,探索了网络需求从“人类观看视频”到“AI理解视频”的转变。为了在保持MLLM准确性的同时大幅降低比特率,我们提出了上下文感知视频流,该技术识别每个视频区域对聊天的重要性,并几乎将比特率专门分配给对聊天重要的区域。为了避免数据包重传,我们提出了抗丢包自适应帧率,该技术利用之前的帧来替代丢失/延迟的帧,同时避免比特率浪费。为了评估视频流质量对MLLM准确性的影响,我们建立了第一个基准测试,名为退化视频理解基准(DeViBench)。最后,我们讨论了AI视频聊天的一些开放性问题和正在进行的解决方案。