⏶4
IPBench:大型语言模型知识产权知识基准测试
发表
由
Mathsion Wong 提交

作者:
Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang

摘要
知识产权(IP)是一个独特的领域,融合了技术和法律知识,这使得它本质上复杂且知识密集。随着大型语言模型(LLMs)的持续发展,它们在处理知识产权任务方面显示出巨大潜力,能够实现更高效的分析、理解和生成与知识产权相关的内容。然而,现有的数据集和基准要么狭隘地专注于专利,要么仅涵盖知识产权领域的有限方面,缺乏与现实世界场景的对齐。为了弥合这一差距,我们引入了首个全面的知识产权任务分类体系以及一个大型、多样的双语基准IPBench,涵盖8种知识产权机制和20个任务。该基准旨在评估大型语言模型在现实世界的知识产权应用中的表现,包括理解和生成能力。我们对16个大型语言模型进行了基准测试,范围从通用模型到领域特定模型,结果发现即使是表现最好的模型也仅达到75.8%的准确率,显示出巨大的改进空间。值得注意的是,开源的知识产权和法律导向模型落后于闭源的通用模型。我们公开了IPBench的所有数据和代码,并将继续更新它,增加更多知识产权相关的任务,以便更好地反映知识产权领域的现实世界挑战。
知识产权(IP)是一个独特的领域,融合了技术和法律知识,使其本身具有复杂性和知识密集性。随着大型语言模型(LLMs)的不断发展,它们在处理IP任务方面显示出巨大潜力,能够更高效地分析、理解和生成IP相关内容。然而,现有的数据集和基准要么只狭隘地关注专利,要么只涵盖IP领域的有限方面,缺乏与现实世界场景的对齐。为了弥合这一差距,我们引入了第一个全面的IP任务分类体系以及一个大型、多样的双语基准IPBench,涵盖8种IP机制和20项任务。该基准旨在评估LLMs在现实世界知识产权应用中的表现,包括理解和生成两方面。我们对16个LLMs进行了基准测试,涵盖从通用模型到领域专用模型,发现即使是表现最好的模型,准确率也仅为75.8%,揭示了巨大的改进空间。值得注意的是,开源的IP和法律导向模型落后于闭源的通用模型。我们公开发布了IPBench的所有数据和代码,并将继续更新,加入更多IP相关的任务,以更好地反映知识产权领域的现实挑战。网站:\url{https://ipbench.github.io/}