AI阅卷“翻车” 其实是“翻”在了自然语言处理

文章正文
2020-10-18 07:25

AI阅卷“翻车” 切实是“翻”在了天然语言处理

  开学季,美国一款号称效劳两万所学校的AI阅卷系统遭到质疑,学员们只要借助系统破绽,输入相应要害词,即使要害词之间并无关联,也能容易获得高分。

  和着人工智能的开展,没有少教导App都利用了智能评分系统,评分系统阅卷快捷,及时出分,受到没有少师生的欢迎。但同时,也有没有少家长吐槽智能评分系统,像英语和读App的评分系统,有时分即使具有英语专业八级水平的人,测试得分也只有80分。

  除了利用于英语口语的智能评分系统,人工智能还被利用于判卷上。没有过这种智能阅卷系统也时有“翻车”景象。据报道,在开学季,一款号称效劳于美国两万所学校的AI阅卷系统就受到了质疑,学员们借助它的破绽,“裸考”就能轻松及格。之所以被学员们钻了空子,是由于该系统只是通过要害词进行评分,学员们只要输入相应要害词,即使多少个要害词之间不关系,也能顺利过关甚至获得高分。

  阅卷前需先设定评判规范

  “自动测评打分系统普通需要先设定评测的规范,然后依据设定的规范去设计适宜的评测算法与模型。”天津大学智能与企图学部教养、博士生导师熊德意介绍,比喻像口语测评打分,就需要机器去评判人的发音能否规范,所读句子的重音能否正确,读出的语句能否连贯流通,连读部分能否精确等。

  AI阅卷系统则触及到关于语言文字的评判,涵盖许多方面,如语法、语义等,会大量运用到天然语言处理技巧。

  “天然语言处理技巧是人工智能的一个首要分支,研究使用企图机关于天然语言进行智能化处理,根底的天然语言处理技巧主要环抱语言的没有同层级展开,包括音位(语言的发音模式)、状态(字、字母如何构成单词、单词的状态变更)、词汇(单词之间的关系)、句法(单词如何造成句子)、语义(语言表述关于应的意思)、语用(没有同语境中的语义阐明)、篇章(句子如何组合成段落)7个层级。”熊德意强调,这些基础的天然语言处理技巧时常被运用到下游的多种天然语言处理义务(如机器翻译、关于话、问答、文档摘要等)中,自动阅卷中的语言文字评测通常触及这7个层级的若干层。

  设计自动评测指标的行动有多种,通常会依据没有同的评判类型去选择适合的行动。“比喻阅卷系统若要进行翻译题的自动评判,可能让先肇事前写好多个参考译文答案,而后把学员的答案跟参考答案进行类比,企图它们的相似度作为学员答案好坏的评测指标。”熊德意举例说,机器翻译常用的评测指标BLEU,就是基于参考译文跟机器译文之间的N-grams(N元)婚配度企图相似度的。

  一个单词是一元,两个相连的单词是二元,还有三元、四元,如果答案中有一个单词与参考答案中的单词一致,那么就会给出一个一元评分,类似的可能企图二元、三元、四元的评分。研究职员为没有同元设置没有同权重,而后把得分统筹起来变成一个客观值,得分越高就解释两者之间的相似性越高。

  没有同AI评分系统后果相差甚远

  此次AI阅卷系统“翻车”的导火索是一位美国历史系教养的儿子在进行历史检修的时分只得到了50%的分数,而她关于儿子的答案进行评测后,感觉孩子的回答基础不问题。

  同样的答案,人工评估跟机器评估为何有如此大的出入?

  “这就是基于AI算法的自动评测面临的最大挑衅:如何与人工评估维持一致。应关于这个挑衅需要解决的问题许多。比喻如何制定适宜的评测规范,主观题进行自动评测必需求有适宜的评测规范跟标准;比喻如何应关于语言的变幻无量,语言的多样性是天然语言处理技巧的主要挑衅之一,语言的自动测评跟自动处理都要面关于多样性的挑衅;比喻如何设计一个综合性的评测指标,虽然目前有各种各样的指标,然而很少有指标综合推敲语言文字的方方面面,例如作文自动阅卷,可以要推敲用词能否偏颇(词汇)、句子能否流通(句法)、段落组织能否有条理(篇章)、内容能否扣题(语义、语用)等。”熊德意说,上面提到的BLEU就是只推敲了单词形式的严厉婚配,不推敲单词的状态变更、语义相似性、译文的句法合理性等因素。

  “遵循的评测规则、评判的启程点没有同,相应的算法模型都没有一样,因此最后的后果也会相差甚远。”熊德意说。

  因此仅仅使用一种评测行动显然是没有全面的,这也就阐明了当孩子的母亲尝试在答案里参与“财产、商队、中国、印度”等题目中的要害词时,即使这些要害词之间不任何串联,她也得了满分。“可以这个AI阅卷系统只应用了简单的要害词婚配,因此会涌现‘要害词沙拉’也能蒙混过关的情况。”熊德意阐明。

  此外,口语的人工测评与机器测评也具备较大出入。“近年来,语音识别性能虽然在深度进修技巧的推动下失掉了显明的提升,然而在开放环境、乐音环境下,这种识别率就会下降许多。”熊德意阐明,如果机器“听”错了一个单词,然后机器进行测评,就会造成一个分歧同伴流传,也就是上游系统的分歧同伴会导致下一系统分歧同伴,错上加错,越错越离谱,测评后果也会天壤之别。

  “目前有许多设计评测指标的行动,还有许多改进的行动,如在企图精确率的同时也企图召回率等。另外,还有关于评测指标进行评测的,即评测的评测,看看哪个评测指标更完善,更跟人的评估一致。”熊德意感叹,许多时分,自动评测的难度跟关于应的天然语言处理义务的难度,从技巧层面来说是一样的,比喻用机器评估一个译文的好坏与用机器生成一个译文的难度类似,用机器评判一个文档摘要的好坏与用机器生成一个摘要的难度也差没有久。

  可结合人工评测让系统更智能

  “传统的自动评测指标通常是基于符号进行企图的,往常深度进修等AI技巧也越来越多天时用于测评工具中。”熊德意介绍,应用深度进修,可能把语言符号映射到实数稠密向量的语义空间,使用语义向量企图相似度。哪怕说的词语跟企图机底本进修的没有一样,但只要语义是一致的,机器就可能进行精准的评估。因此,基于深度进修的自动评测某种程度上可能应关于语言的多样性挑衅。没有过深度进修也有一个问题,就是需要大量的数据让机器进前进修。

  基于自监督进修的预训练语言模型,近多少年,在语言表示进修中,失掉了突立性的进展。“OpenAI的预训练语言模型GPT-3,在5000亿单词的海量语料上训练了一个带有1750亿个参数的神经网络,通过大量进修网络上各种语言的文本,GPT-3造成了富强的语言表示能力,可能进行多种义务,比喻自动翻译、故事生成、常识推理、问答等,甚至可能进行加减法运算,比喻其两位数加减法正确率达到100%,五位数加减法正确率濒临10%。”熊德意介绍,没有过,这么宏大的神经网络,如果用单精度浮点数存储,需要700G的存储空间,另外模型训练一次就立费了460万美元。因此,即使GPT-3存在较好的零样本、小样本进修能力,其高昂的成本使其离普遍可用还有很远的距离。

  然而AI作为阅卷评测“先生”,其又有人工没有可比拟的上风。比喻AI自动批阅卷系统相比人工批阅速度更快,先生没有可以一次记住所有的多项选择题答案,需要一直反省规范答案,这是很费时的,自动批阅系统协助先生大大进步了效率;另外,自动批阅系统更加理性,没有受外界条件烦扰,没有会因疲劳等原因导致误判。即使在冗长的烦扰环境中,仍然可能得到正确的后果;AI阅卷系统还可能在评分后直接做好学情分析,统计出检修数据、错题数据等传授资料,协助先生减负增效,协助学员进步进修效率。

  “将主观题偏颇地客观化,可能降低自动阅卷的难度。”熊德意表示,关于无奈客观化的主观题,虽然设定全面的评测规范关于比难,然而设定某一方面的评测规范还是可行的,比喻针关于单词词法、句子语法的评判,目前精确率还是挺高的,这类技巧可能从实验室走向产品利用。

  也可能引入人工评测,关于AI阅卷系统打分进行复核与修正,通过这种重复的修正,累积大量的评测训练数据,让机器评分变得更加智能。

  “使用天然语言处理等人工智能技巧,进一步完善主观智能评分系统,将是未来教导范围的一个非常首要的课题。”熊德意说,以后的AI自动批阅系统断定会越来越“聪明”,人工智能与教导的结合也会越来越严密。

(责编:杨虞波罗、吕骞)

文章评论