高效的小型视觉语言模型测试时缩放

发表
onurcanonurcan 提交
作者: onurcanMehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos

摘要

AI 生成总结
两种新颖的测试时缩放策略,测试时增强和测试时适应,在不影响计算效率的情况下提高了小型视觉语言模型的性能。
小型视觉语言模型(VLM)提供了一种计算高效的替代方案,可以替代大型模型,但其泛化能力和下游任务性能较弱。这些缺点可以通过测试时缩放技术来解决,但现有的方法通常计算成本高昂,这与小型模型的资源高效设计目标相悖。为了解决这些限制,我们提出了两种新颖高效的测试时缩放策略,它们利用模型内部特征而非外部监督:(i)测试时增强(TTAug),该策略生成多个增强输入并在不更新参数的情况下聚合 token 级别的输出;(ii)测试时适应(TTAdapt),该策略在推理过程中利用来自 TTAug 的基于共识的伪标签来适应模型参数。通过在九个基准测试中的广泛实验,我们证明了在保持计算效率(适合资源受限环境)的同时,性能持续提高。我们的方法具有普遍性,在不同规模的模型内部以及跨不同的 VLM 之间都得到了体现,且无需额外调整。
查看 arXiv 页面查看 PDF

评论

onurcanonurcan
论文作者
论文提交者

我们提出了两种在测试时改进多模态小语言模型的有效且高效的方法:TTAug(输入增强 + 标记级聚合)和 TTAdapt(通过伪标签进行参数适应)。

🌐 项目主页:https://monurcan.github.io/efficient_test_time_scaling

💻 代码:https://github.com/monurcan/efficient_test_time_scaling