通过向同行学习来改进大型视觉语言模型

发表
taesiritaesiri 提交
作者: Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente OrdonezVicente Ordonez, Kushal KafleKushal Kafle

摘要

大型视觉语言模型(LVLMs)的传统对齐方法主要依赖于人类策划的偏好数据。人类生成的偏好数据成本高昂;机器生成的偏好数据质量有限;自监督偏好数据常常引入幻觉。为了克服这些限制,我们提出了一个受人类协作学习启发的、新颖的同伴面板学习框架。该方法利用一系列LVLMs,每个模型通过迭代的自我改进过程评估并学习其集体输出。通过模拟同行评审系统,我们的模型响应精心策划的提示来生成、评估和改进输出,模仿课堂学习环境。我们证明了这种方法可以在无需大量人类标记数据集的情况下提高模型性能。我们的实验表明,在多个基准上性能显著提高,证明了同伴评估作为自监督对齐的可扩展替代方案的潜力。值得注意的是,我们表明同伴面板将十五个基准的平均分数从48%提高到57%。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 大型视觉和语言模型(LVLMs)的传统对齐方法主要依赖于人工策划的偏好数据。人工生成的偏好数据成本高昂;机器生成的偏好数据质量有限;自监督偏好数据常常引入幻觉。为了克服这些限制,我们提出了一种受人类协作学习启发的创新性“同伴学习”框架。该方法利用一组 LVLMs,每个模型通过迭代的自我改进过程评估并学习其集体输出。通过模拟同行评审系统,我们的模型响应一组精选的提示来生成、评估和改进输出,模仿课堂学习环境。我们证明了这种方法在不需要大量人工标记数据集的情况下就能提高模型性能。我们的实验表明,在多个基准测试中性能显著提高,证明了同行评估作为一种可扩展的自监督对齐替代方案的潜力。值得注意的是,我们发现“同伴学习”将十五个基准测试的平均分数从 48% 提高到 57%。