科技资讯媒体中国电商报

首页 电商 互联网 硬件 创投 生活

研究人员在3867篇AI研究论文中发现不一致的基准测试

用来对AI和机器学习模型进行基准测试的指标通常不足以反映这些模型的真实性能。根据维也纳人工智能与决策支持研究所的研究人员的预印本研究,该研究对基于开放源代码的基于Web平台的Papers with Code的3,000多种模型性能结果中的数据进行了分析。他们声称基准测试中很少使用其他更合适的指标,并且指标的报告不一致且不明确,导致模棱两可。

基准测试是AI研究进展的重要推动力。一个或多个任务和与之相关的度量(或多个任务)可以被视为科学界旨在解决的问题的抽象。基准数据集被概念化为要由模型解决的任务的固定的代表性样本。但是,尽管已经建立了涵盖机器翻译,对象检测或问题解答等一系列任务的基准,但该论文的合著者声称有些准确性-例如准确度(即正确预测的样本与样本总数之比)-强调绩效的某些方面,而牺牲其他方面。

在分析中,研究人员查看了2000年至2020年6月之间发表的3,867篇论文中2,298份数据集中的32,209项基准结果。他们发现,这些研究总共使用了187个不同的顶级指标,而最常用的指标是“准确性,占基准数据集的38%。第二和第三最常报告的指标是“精度”,或相关实例在检索到的实例中所占的比例,以及“ F量度”,即精度和召回率的加权平均值(在实际检索到的所有相关实例中所占的比例)。除此之外,就涵盖自然语言处理的论文子集而言,三个最常报告的指标是BLEU评分(用于摘要和文本生成等),ROUGE指标(视频字幕和摘要),

研究人员称,在三分之二(77.2%)的已分析基准数据集中,仅报告了一个性能指标。基准数据集的一小部分(14.4%)具有两个顶级指标,而6%则具有三个指标。

研究人员指出,在他们所确定的指标报告中存在违规行为,例如将“曲线下的区域”简称为“ AUC”。曲线下的面积是对准确性的度量,可以根据绘制的精度和召回率(PR-AUC)还是召回率和假阳性率(ROC-AUC)以不同的方式进行解释。同样,有几篇论文提到了自然语言处理基准-ROUGE,但没有指定使用哪种变体。研究人员认为,ROUGE具有精确度和召回度定制的子变量,尽管召回子变量更为常见,但是在比较论文之间的结果时可能会导致模棱两可。

研究人员说,除了不一致的地方外,被调查论文中使??用的许多基准都是有问题的。准确性通常用于评估二进制和多类分类器模型,当处理不平衡的语料库时,每个类的实例数存在很大差异时,准确性不会产生有益的结果。如果分类器在所有情况下都预测出多数类别,则准确性等于全部类别中多数类别的比例。例如,如果给定的“类别A”占所有实例的95%,则始终预测“类别A”的分类器的准确度将为95%。

精度和召回率也有局限性,因为它们仅关注分类器预测为阳性的实例或真实阳性(准确的预测)。两者都忽略了模型准确预测负面案件的能力。至于F分数,有时他们会更注重准确性而不是召回率,为偏向于预测多数类的分类器提供了误导性的结果。除此之外,他们只能专注于一堂课。

在自然语言处理领域,研究人员重点介绍了BLEU和ROUGE等基准测试的问题。BLEU不会考虑召回,也不会与人类对机器翻译质量的判断相关联,并且ROUGE未能充分涵盖依赖广泛的措辞的任务,例如摘要摘要和摘要摘录的摘要,其中包括许多不同的发言者,例如会议记录。

研究人员发现,在他们分析的任何论文中都没有使用更好的度量替代方法,例如Matthews相关系数和Fowlkes-Mallows指数,这些度量方法解决了准确性和F评分度量标准的一些缺点。实际上,在报告了顶级度量“准确性”的基准数据集中的83.1%中,没有其他任何顶级度量,并且F-measure是数据集中60.9%的唯一度量。自然语言处理指标也是如此。被证明与人类跨任务判断高度相关的METEOR仅使用了13次。旨在评估生成的文本与“正常”语言用法的符合程度的GLEU仅出现了3次。

研究人员承认他们决定分析预印本的决定,而不是科学期刊接受的论文可能会歪曲他们的研究结果。但是,他们的结论是,当前用于评估AI基准测试任务的大多数指标具有可能潜在地导致无法充分反映分类器性能的属性,尤其是在与不平衡数据集一起使用时。“虽然已经提出了解决问题属性的替代指标,但目前在基准测试任务中很少将它们用作性能指标,而使用一小组历史确定的指标来代替。研究人员写道,由于语言和特定于任务的复杂性,特定于NLP的任务给度量设计带来了额外的挑战。

越来越多的学者呼吁将重点放在AI的科学进步上,而不是在基准上取得更好的性能。在6月的一次采访中,Google Brain团队的前驻地Denny Britz表示,他认为追求最新技术是不明智的做法,因为存在太多令人困惑的变量,并且因为它有利于大型,资金充足的实验室,例如DeepMind和OpenAI。分别由卡内基·梅隆大学助理教授扎卡里·利普顿(Zachary Lipton)和加利福尼亚大学伯克利分校统计系成员雅各布·斯坦哈特(Jacob Steinhardt)提议在最近的一项荟萃??分析中,AI研究人员深入研究了与性能相反的方法和原因,并在研究过程中进行了更多的误差分析,烧蚀研究和稳健性检查。