DaMo:用于手机代理微调多模态 LLM 的数据混合优化器

发表
OPPO AI CenterOPPO AI Center 提交
作者: Kai Shi, Jun Yang, Ni Yang, Binqiang Pan, Qingsong Xie, Chao Zhang, Zhenyu Yang, Tianhuang Su, Haonan Lu

摘要

AI 生成总结
DaMo 是一种可训练网络,用于优化多模态大型语言模型的数据混合,从而提升各种手机任务和基准的性能。
移动电话代理 (MPA) 因其在各种场景中的广泛适用性而成为一个有前景的研究方向。 虽然多模态大型语言模型 (MLLM) 是 MPA 的基础,但它们在同时处理多个移动电话任务方面的有效性仍然有限。 尽管多任务监督微调 (SFT) 被广泛用于多任务学习,但现有方法难以确定最佳训练数据组合以实现最佳性能。 为了解决这个挑战,我们提出了 DaMo (Data Mixture Optimizer) ——一种新颖的解决方案,它采用可训练网络,通过预测任何给定数据集比例的下游任务性能来预测最佳数据混合。 为了支持全面评估,我们引入了 PhoneAgentBench,这是第一个专门用于评估 MLLM 在多模态移动电话任务上的基准,包含 1235 个问答对,涵盖各种真实世界工业移动应用场景。在小规模试点实验中,DaMo 展示了强大的预测能力 (R^2=0.81),有效地外推了最佳数据混合配置。 我们的结果表明,与替代方法相比,DaMo 在 PhoneAgentBench 上实现了 3.38% 的性能提升。此外,在包括 BFCL-v3、MME-Reasoning、MME-Perception 和 OCRBench 在内的已建立基准上的大量实验表明,DaMo 具有卓越的泛化能力, 平均分数比其他方法高出 2.57%。当仅用于 BFCL-v3 任务的 MLLM 优化时,DaMo 将指标比其他方法提高了 12.47%。值得注意的是,DaMo 保持了强大的可扩展性,在应用于其他模型架构时仍能保持其有效性。 代码和数据集可在 https://github.com/OPPO-Mente-Lab/DaMo.git 获取。
查看 arXiv 页面查看 PDF

评论

OPPO AI CenterOPPO AI Center
论文提交者

本文提出了一种探索多模态 LLM 微调数据混合优化器的方法,并设计了用于移动代理评估的 PhoneAgentBench。