⏶0
EduRABSA:一个用于基于方面的情感分析任务的教育评论数据集
发表
由
yhua219 提交

作者:
Yan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova

摘要
每年,大多数教育机构都会寻求并收到大量学生关于课程、教学和整体体验的文本反馈。然而,将这些原始反馈转化为有用的见解远非易事。由于教育评论文本数据的内容复杂性和低粒度的报告要求,采用自动意见挖掘解决方案来处理这些数据一直是长期存在的挑战。基于方面的情感分析(ABSA)凭借其丰富的、句子级别的意见挖掘能力,提供了一种有前途的解决方案。然而,现有的 ABSA 研究和资源在很大程度上侧重于商业领域。在教育领域,由于公开数据集有限且数据保护严格,它们非常稀缺且难以开发。迫切需要一个高质量的、经过注释的数据集来推进这一资源匮乏领域的[研究]。在这项工作中,我们提出了 EduRABSA(Education Review ABSA),这是第一个公开的、经过注释的 ABSA 教育评论数据集,它涵盖了英语的三个评论主题类型(课程、教学人员、大学)以及所有主要的 ABSA 任务,包括未充分研究的隐式方面和隐式意见提取。我们还共享了 ASQE-DPT(数据处理工具),这是一个离线、轻量级、无需安装的手动数据注释工具,它能够从单任务注释生成全面的 ABSA 任务的标注数据集。总而言之,这些资源通过消除数据集壁垒、支持研究透明度和可重复性,并[促进]进一步资源的创建和共享,为 ABSA 社区和教育领域做出了贡献。数据集、注释工具以及数据集处理和抽样的脚本和统计信息可在 https://github.com/yhua219/edurabsa_dataset_and_annotation_tool 获取。
数据集现已上线Huggingface: https://huggingface.co/collections/yhua219/edurabsa-dataset-68b59bad56a9e1384de7faf2