主动学习超参数综述:来自大规模实验网格的启示

发表
Julius GonsiorJulius Gonsior 提交
作者: Julius GonsiorJulius Gonsior, Tim RießTim Rieß, Anja Reusch, Claudio Hartmann, Maik ThieleMaik Thiele, Wolfgang Lehner

摘要

数据标注是一项耗时且成本高昂的任务,但它是监督机器学习的固有要求。主动学习(AL)是一种成熟的方法,它通过迭代选择最具信息量的未标注样本进行专家标注,从而最大限度地减少人工标注工作量,进而提高整体分类性能。尽管 AL 已有数十年的历史,但它在实际应用中仍然鲜有使用。正如在 NLP 社区关于 AL 的两次社区网络调查中所示,有两个主要原因持续阻碍从业者使用 AL:首先是 AL 设置的复杂性,其次是对其有效性缺乏信任。我们假设这两个原因的罪魁祸首是相同的:AL 巨大的超参数空间。这个大部分未被探索的超参数空间经常导致误导性和不可复现的 AL 实验结果。在这项研究中,我们首先汇编了一个包含超过 460 万个超参数组合的大型超参数网格;其次,在迄今为止规模最大的 AL 研究中记录了所有组合的性能;第三,分析了每个超参数对实验结果的影响。最后,我们给出了关于每个超参数影响的建议,展示了具体 AL 策略实现的惊人影响力,并概述了一种以最小计算量进行可复现 AL 实验的实验研究设计,从而有助于未来更具可复现性和可信赖的 AL 研究。
查看 arXiv 页面查看 PDF

评论

Julius GonsiorJulius Gonsior
论文作者
论文提交者

数据标注是一项耗时且成本高昂的任务,但它是监督机器学习固有的要求。主动学习(AL)是一种成熟的方法,它通过迭代地选择信息量最大的未标注样本进行专家标注,从而最大限度地减少人工标注工作量,并提高整体分类性能。尽管主动学习(AL)已存在数十年,但它在实际应用中仍然很少被使用。正如自然语言处理(NLP)社区中关于AL的两项社区网络调查所示,有两个主要原因持续阻碍从业者使用AL:首先是AL设置的复杂性,其次是对其有效性缺乏信任。我们假设这两个原因都源于同一个罪魁祸首:AL巨大的超参数空间。这个大部分未被探索的超参数空间常常导致误导性且不可复现的AL实验结果。在这项研究中,我们首先构建了一个包含超过460万种超参数组合的巨大超参数网格;其次,在迄今为止最大规模的AL研究中记录了所有组合的性能;第三,分析了每个超参数对实验结果的影响。最后,我们对每个超参数的影响给出了建议,展示了具体AL策略实现方式的惊人影响,并概述了一种实验研究设计,旨在以最小的计算量实现可复现的AL实验,从而有助于未来AL研究的更高可复现性和可信赖性。