ClaimGen-CN:用于法律主张生成的超大规模中文数据集

发表
Xavier HuXavier Hu 提交
作者: Siying Zhou, Yiquan Wu, Hui Chen, Xavier HuXavier Hu, Kun Kuang, Adam JatowtAdam Jatowt, Ming Hu, Chunyan Zheng, Fei Wu

摘要

法律主张是指原告在一个案件中的诉求,对于指导司法推理和案件解决至关重要。虽然许多研究都专注于提高法律专业人士的效率,但帮助非专业人士(例如原告)的研究仍未得到探索。本文探讨了基于给定案件事实生成法律主张的问题。首先,我们构建了ClaimGen-CN,这是第一个用于中文法律主张生成任务的数据集,该数据集来自各种现实世界的法律纠纷。此外,我们设计了一个专门用于评估生成主张的评估指标,该指标涵盖了两个基本维度:事实性和清晰性。在此基础上,我们对最先进的通用和法律领域大型语言模型进行了全面的零样本评估。我们的研究结果突出了当前模型在事实准确性和表达清晰度方面的局限性,表明了在该领域需要更具针对性的开发。为了鼓励对这项重要任务进行进一步探索,我们将公开提供该数据集。
查看 arXiv 页面查看 PDF

评论

Xavier HuXavier Hu
论文作者
论文提交者

法律诉求是指原告在案件中的主张,对于指导司法推理和案件解决至关重要。尽管许多研究都致力于提高法律专业人士的效率,但帮助非专业人士(例如原告)的研究仍未得到探索。本文探讨了基于给定案件事实生成法律诉求的问题。首先,我们构建了 ClaimGen-CN,这是第一个用于中文法律诉求生成任务的数据集,该数据集来自各种真实世界的法律纠纷。此外,我们设计了一个用于评估生成诉求的定制化评估指标,该指标包含两个关键维度:事实准确性和清晰度。在此基础上,我们对最先进的通用和法律领域的大型语言模型进行了全面的零样本评估。我们的研究结果突显了当前模型在事实准确性和表达清晰度方面的局限性,表明需要在此领域进行更有针对性的开发。为了鼓励对这项重要任务进行进一步探索,我们将公开提供该数据集。