⏶2
ViMRHP:一个用于通过人机协作标注进行多模态评论有用性预测的越南基准数据集
发表
作者: Truc Mai-Thanh Nguyen, Dat Minh Nguyen,
Son T. Luu, Kiet Van Nguyen

摘要
多模态评论有用性预测(MRHP)是推荐系统中的一项重要任务,尤其是在电商平台中。判断用户生成评论的有用性可以增强用户体验并改善消费者的决策。然而,现有数据集主要集中在英语和印度尼西亚语,导致语言多样性不足,特别是对于越南语等低资源语言。在本文中,我们介绍了ViMRHP(越南语多模态评论有用性预测),这是一个用于越南语MRHP任务的大规模基准数据集。该数据集涵盖四个领域,包含2000个产品和46000条评论。同时,构建大规模数据集需要大量时间和成本。为了优化标注过程,我们利用人工智能协助标注人员构建ViMRHP数据集。借助人工智能的帮助,标注时间得以缩短(从每次任务90到120秒减少到20到40秒),同时保持数据质量并将总成本降低约65%。然而,人工智能生成的标注在复杂的标注任务中仍存在局限性,我们通过详细的性能分析对此进行了进一步研究。在我们对ViMRHP的实验中,我们在人工验证和人工智能生成的标注上评估了基线模型,以评估它们之间的质量差异。ViMRHP数据集已公开提供,地址为 https://github.com/trng28/ViMRHP
评论
此评论已隐藏。