MATE:一个基于大型语言模型的多智能体翻译环境,用于无障碍应用

发表
Aleksandr AlgazinovAleksandr Algazinov 提交
作者: Aleksandr AlgazinovAleksandr Algazinov, Matt Laing, Paul Laban

摘要

在当今社会,无障碍性仍然是一个关键问题,因为许多技术在开发时并未充分支持所有用户的需求。现有的多智能体系统(MAS)由于闭源设计导致的缺乏定制性,往往无法为有需求的用户提供全面的帮助。因此,残障人士在尝试与数字环境互动时经常会遇到显著障碍。我们引入了MATE,一个多模态无障碍MAS,它根据用户的需求执行模态转换。该系统通过确保数据转换为可理解的格式,有助于帮助残障人士。例如,如果用户视力不佳并收到一张图片,系统会将此图片转换为其音频描述。MATE可应用于广泛的领域、行业和区域,例如医疗保健,并可成为各类用户的有用助手。该系统支持多种类型的模型,从LLM API调用到使用自定义机器学习(ML)分类器。这种灵活性确保系统能够适应各种需求,并与多种硬件兼容。由于系统预计将在本地运行,因此它能确保敏感信息的隐私和安全。此外,该框架可以有效地与机构技术(例如,数字医疗服务)集成,以提供实时用户帮助。此外,我们还引入了ModCon-Task-Identifier,一个能够从用户输入中提取精确模态转换任务的模型。大量实验表明,ModCon-Task-Identifier在我们的自定义数据上始终优于其他LLM和统计模型。我们的代码和数据已公开发布在https://github.com/AlgazinovAleksandr/Multi-Agent-MATE
查看 arXiv 页面查看 PDF

评论

Aleksandr AlgazinovAleksandr Algazinov
论文作者
论文提交者

一篇关于用于全面模态转换任务的多智能体系统的论文