机器是怎么判口语的？首次ETS“口语机评算法”解密

本文微信首发于“语言学radio”

估计在国内托福这个圈子里，不超过3个人像我这样天天读论文、洗数据、优化算法引擎。另外两个这么投入研发的应该快被ETS诏安了。

这篇解析报告是上一篇，在 3 个月之内准备托福，想要达到 100+，有哪些方法建议?”的姊妹篇。翻阅论文是孤独的，分析数据是枯燥的，验证算法是耗时的，模型迭代是抽象的，一篇文章自己扣一个月也是合情合理的。

人的安全感来自于：对预期可控。托福口语考生的安全感来自于，对评分方法一清二楚，对评分原则了如指掌、对练习预期心知肚明。

和托福阅读、听力的客观评分不同，口语、写作都有主观评分参与，其牵扯到的人工费用很高，这无疑增加了ETS的运营成本。

很多同学会说托福报名费很高的！但目前考试报名费的1900+元，并不是ETS都拿走了，实际上要分一部分给国内教育考试管理部门、组织考试的学校考场、考试的推广费用，剩下拿到ETS手里的真不多了。随着考生的数量愈加扩大，人工判分的需求量自然暴增，无疑：机评代替人评是大势所趋，技术服务于需求。

从2006年开始，ETS推广iBT考试以来，一直把机评引擎的开发放在战略重点，每年都有各种论文和数据研究发表在世界级核心期刊上。2006年开始之初，机评引擎处于数据搜集期，2010年以后人评、机评校对过渡期，直到现在机评为主、人评为辅的应用期，ETS已经走过了十多年的自然语言识别研发路。

传统的口语的评分要经历三次人工：

1. 先由第一位rater判一个初始分（4分制原始分）

2. 再由第二位rater判一个校对分（4分制原始分）

3. 如果第二位和第一位的判分差在1分以内（4分制）则二者取平均换算成30分制的成绩Scaled Score

4. 如果第二位和第一位的判分差超过1分，则由第三位rater（administration老大级）进行终判。

可想而知ETS的人工投入成本之高，单靠那点报名费真的是捉襟见肘，技术服务于需求——机评势在必行：

1. ETS总部的SpeechRater引擎（不是给合作机构共享的阉割版）机评判分（4分制原始分）

2. 由人工按照10%的比例抽检

机评的应用使得人工成本骤减。很多同学会觉得自己被ETS的官方Rater评分是不是更占便宜，实际未必，因为人工判分工作负荷大，体力和脑力都是巨大挑战，很可能同一个rater在不同时间段打分会因为身体状况而有波动。

但机评就不会出现人工打分因工作量巨大而导致打分不稳定的问题。总之，无论你现在接不接受机评，ETS都坚信：人工智能机评——真香！

那问题来了，机评和人评的误差是多少，机评靠谱吗？

SpeechRater是世界上应用最广泛的英语口语测评系统之一，从2006年开始就内嵌在托福评分系统中（当时刚启动iBT考试，机评的主要任务先要喂数据），因为ETS自己就是测试模型的设计人，所以SpeechRater针对托福口语做了特别优化。

虽然市面上大家也能看到很多自称能给托福口语打分的APP或ETS合作授权版本，但趋于算法迭代版本和数据样本量的限制，顶多能对语速和输出量进行评估，还远远无法达到SpeechRater总部机评对托福答题进行质量鉴定的能力。

ETS在经过了2006-2015年整10年的数据积累，并经过人工打分校对不断优化机评打分容差，尤其伴随着2015年内嵌入神经网络学习托福口语复议，机评准确度已经达到82%以上。而且机评稳定性要远远高于人评，人总是有情绪的：短期内大量评分，体能损耗，情绪波动会影响评分的公允，对考生和测试系统的完善都不利。

所以，我们可以这样理解，机评介入后，即便你申请口语复议，也可能维持原判，甚至减分（人工复议会对答题逻辑内容要求更苛刻），即便机评的第一遍打分，你被打低了一分，复议确认机评校对，也就任务单项提高一分。举例：

比如口语6道题，小明分别得分：2, 2, 3, 3, 2, 3（4分制原始分），把6道题的分数相加除以6得到口语2.5分（4分制原始分），换算口语19分。

如果小明申请复议，Task 1提了1分（4分制原始分），小明分别得分：3, 2, 3, 3, 2, 3（4分制原始分），把6道题的分数相加除以6得到口语2.66分（4分制原始分），换算口语20分（原始分的换算如下图）。

也就是千辛万苦复议过后的小明从19分提了1分到20分。算一笔账，有这个闲工夫复议较真，还不如仔细研究一下评分规则和机评算法结构，让机评给我们的口语分打高点更省心。

ETS口语评分的规则是根据Lyle F. Bachman 和Adrian S. Palmer在Language Testing in Practice——Designing and Developing Useful Language Tests论文中的要点为测试模型设计基础：衡量Communicative competence的Rubric dimensions包括：

Fluency输出流利, Pronunciation发音正确, Prosody声韵, Vocabulary Range口语词汇量, Sophistication句型复杂度, Grammatical Accuracy and Complexity语法正确和复杂度, Content内容丰富, Aspects of Discourse辩论推理。

因为ETS设计的托福测试模型受众并非是语言专业人群，所以上述规则被精简为：Fluency, Pronunciation, Prosody, Vocabulary Usage, Grammatical Expression, and Content. 由此归类为托福口语评分的三大规则：

1. Delivery传递表达：

（1）口齿清晰（日常说话舌头懒很吃亏）

（2）答题连贯（超过3秒卡壳就算不连贯）

（3）发音准确（元音、辅音的唇齿舌配合到位，ETS不奢求你像native speaker一样地道）

（4）节奏自然（不要忽快忽慢，背忘词了很尴尬）

（5）语音语调（有抑扬顿挫切忌语调平平）

注：这部分的训练方法，《清北托福备考联盟慕课——口语篇》（腾讯教育、B站公开课均可搜）中有提供；另外一篇知乎的答题在 3 个月之内准备托福，想要达到 100+数据模型报告中我也有列出了免费学习资源。

2. Language Use语言应用：

（1）语汇使用恰当多样（先恰当再多样）

（2）句型灵活搭配（状定同位语分词运用自如）

（3）语法无误（中国同学常犯单复数、冠词、主谓时态等问题）

注：到底怎样的词汇输出才能达到要求，我们还是以ETS的发表论文数据为参考，下表中ETS给出了独立任务和综合任务的Good Level满分级别的数据统计（下图红框）。

满分独立任务答题实际输出词100词就足够拿到满分；满分综合任务答题实际输出词约138词就足够拿到满分。在这些满分口语答题中，82%都是GSL 1K（General Service List）级别的基础词汇，而GSL 2K级别的高级词汇仅占4%-5%。

GSL 1K词表参考：

3. Development论述拓展：

（1）观点明确回应题目（机评可以鉴别是否跑题）

（2）例证拓展细节丰富（通过神经网络学习，机评可以通过采样对比判断内容拓展是否达标）

（3）答题时间分配合理（如果答完一看还差5秒才到时间，就是时间分配不合理；当然允许超时，前提是已经足够论述，即便超时也无大防碍）

注：这部分的训练方法，《清北托福备考联盟慕课——口语篇》中有提供（腾讯教育、B站公开课均可搜）；对于综合任务的笔记训练方法，可以在托福听力的练习过程中一起练快速笔记复述，不一定只抓着口语练笔记，要充分榨干每一套题的练习潜力。

从左到右的模组说明

1. Spoken Response，首先接收考场里的音频信号。我们答题的音频并不是平时听歌曲的CD音质，而是采样率较低的电话音质，所以这对我们答题时的环境有一定的要求。

比如特别吵杂（旁边一堆人激励哇啦使劲喊着答题），或者答题人喜欢挨着话筒非常近喷麦（气流的传导声），都会影响音频信号的上传质量。所以，国内的同学们要注意考场文明答题，大声喊着答题不但对别的同学造成噪音干扰，而且自己的麦克风收音也会因喷麦爆掉。

2. ASR（Automatic Speech Recognition），然后进行第一步音频信号识别。在Signal Processing中，那些口齿不清晰、发音不标准的音频都会被标记为识别失败，这就跟写作系统的e-rater原理一样，一句话如果主谓宾单词都拼错了，机器只能判定本句作废；

同理：因为口语发音不到位导致引擎无法识别发音信号，即便答了100个词，也可能因为识别不出而判定某句作废。目前SpeechRater的引擎辩音识别度能够达到95%以上的准确识别率，可以完全替代人工24小时不间断地投入工作。

3. Feature Generator

这分为两项，一项是Scoring Features，就是把识别出来的语音信号按照评分原则逐项评级；同步进行的是Similarity Features，就是作弊查重。

ETS喂了很多数据给这个“作弊查重”模组，尤其对于大陆同学广为流传的：“20G30G 托福资料网盘转发”或者“某金80题”等烂遍街的转发材料，ETS都可以直接把这些朋友圈满天飞的内容导入模组，查重属实自动判定0分也不再给与复议资格。

趋于本文的篇幅和读者受众是考生为主，这里就不再赘述晦涩的Feature Computation Modules迭代。

4. Filtering Model，这是在SpeechRater的历次升级中，提升最显著的模组，用于过滤掉无效答题内容：non-scorable (NS) responses。可以理解为，考生自认为有用的内容，但实际上蛋用没有。

对于国内同学来说，最常见的比如：中文作答，唱一首歌，背一段新概念第三册短文，亦或是在自己的答题中加入自认为很“洋气”的词，诸如：Well…, You know…, when we are talking about…, I believe this is a thought provoking question… 这些不知道是谁教给你的但实际上会被Filter Model模组直接过滤掉的信息，根本不会进入Scoring Model，对提分蛋用没有。

5. Scoring Model

在经过了对不清晰发音信号、无效答题信息、查重抄袭嫌疑的一系列数据过滤后，能够进入到打分模型的肯定不是同学们在答题时自己感觉的那样：我感觉挺好啊，我说的很流利啊，我语速不错啊托福口语复议，我答完了啊。

趋于本文的篇幅和读者受众是考生为主，这里不再赘述Multiple Regression Scoring Model的迭代，只需提醒一点，借助人工智能在这两年的突飞猛进，SpeechRater评分的人工校对准确率从73%提高到了82%。

尤其是Delivery和Language Use两项在配备了Filtering Model的深度学习后，可以准确判定70%的考生被刷在23分以下了：如果你的分数在22分及以下，大可不必操心复议提分，因为你已经没有资格享受人工判分的机会了，人工也听不懂这娃到底在嘟哝些啥。

1. 哪个数据处理环节把考生分数拉开了上断崖式差距？从ETS公布的数据来看，西方国家的口语成绩普遍高于东方国家，并不是语速快或者说得多，而是机评采样中西方人的Delivery和Language Use两项评级明显占优——西方同学发音大都清晰、流畅、语法正确率非常高。所以三大评分规则中的前两项都明显占优，自然口语评分就秒杀东亚的同学了。

2. 网上流传的各种很“洋气”的答题段子有用吗？在SpeechRater的初期发展中只能关注发音和流利度的测定，的确在没有加入Filtering Model的深度学习前比较弱鸡。但现在借助于DEEP Neural Networks和Graphics Processing Units，辅助于人工抽检已经有越来越高的鉴别率了，查到就是0分。想靠烂遍朋友圈的“20G资料”和所谓“XX金模板”照抄伎俩万万不要再有了。

3. “有人说”托福成绩会压分，是真的吗？先问自己三个问题：你是何方神圣让ETS特别关照你？SpeechRater跟你结过梁子有仇吗？“有些人”是“哪些人”，贴过115+的成绩单吗？这个“有些人”“网上说”“据相关人士透露”的说辞，大都来自于这一群体：考试过百很难，自己永远没错，世界跟他有仇，随处散发负能量。

附：一位托福口语高分案例研究。在《清北托福备考联盟慕课——口语篇》的讲义附件材料里，有一位高二的女生，一战口语21经过82天的量化备考，二战口语27。我们一起详细记录了整个备考过程每一天的量化指标统计和分析。高分案例摆出数据，科学备考事半功倍。

如果你觉得这样的知乎文章有帮助，请不要吝惜点赞哟！

附录Ref List：

Automated Scoring of Spontaneous Speech Using SpeechRaterSM v1.0, Xiaoming Xi, Derrick Higgins, Klaus Zechner, and David M. Williamson November 2008 ETS RR-08-62

SpeechRater™: A Construct-Driven Approach to Scoring Spontaneous Non-Native Speech, Klaus Zechner, Derrick Higgins, Xiaoming Xi Educational Testing Service Princeton, NJ, USA

Monitoring the Performance of Human and Automated Scores for Spoken Responses, Wang, Zhen; Zechner, Klaus; Sun, Yu, Language Testing, v35 n1 p101-120, 2018

Combining Human and Automated Scores for the Improved Assessment of Non-Native Speech, Yoon, Su-Youn; Zechner, Klaus, Speech Communication, v93 p43-52, Oct 2017

Comparative Evaluation of Automated Scoring of Syntactic Competence of Non-native Speakers,Zechner, Klaus; Yoon, Su-Youn; Bhat, Suma; Leong, Chee Wee, Computers in Human Behavior, p1-11, 2017

Automated Scoring Across Different Modalities, Loukina, Anastassia; Cahill, Aoife, Proceedings of the 11th Workshop on Innovative Use of NLP for Building Educational Applications, San Diego, CA, June 16, 2016, p130-135

Feature Selection for Automated Speech Scoring, Loukina, Anastassia; Zechner, Klaus; Chen, Lei; Heilman, Michael, Proceedings of the 2015 Tenth Workshop on Innovative Use of NLP for Building Educational Applications, Denver, CO, June 4, 2015, p12-19.

Automatic Detection of Plagiarized Spoken Responses, Evanini, Keelan; Wang, Xinhao, Proceedings of the Ninth Workshop on Innovative Use of NLP for Building Educational Applications, 2014, p22–27.

Self-Adaptive DNN for Improving Spoken Language Proficiency Assessment, Qian, Yao; Wang, Xinhao; Evanini, Keelan; Suendermann-Oeft, David, INTERSPEECH 2016. 17th Annual Conference of the International Speech Communication Association, San Francisco, Sept 8 – 12, 2016, p3122-3126

Similarity-Based Non-Scorable Response Detection for Automated Speech Scoring, Yoon, Su-Youn; Xie, ShaSha, Proceedings of the Ninth Workshop on Innovative Use of NLP for Building Educational Applications, Baltimore, MD, Jun 26, 2014, p116-123

Automatic assessment of syntactic complexity for spontaneous speech scoring, Bhat, Suma; Yoon, Su-Youn, Speech Communication, v67 p42-57, Mar 2015

佳妮英评网

机器是怎么判口语的？首次ETS“口语机评算法”解密

作者: admin

「精心整理」成人如何学商务英语口语？专家分析

成人零基础学习英语的最佳方法，这几点不能忽视！

教你搞定中高阶英语语法小窍门

英语说明文写作高分要领

作者: admin

第二届“和教育-口语易杯”中小学生英语口语大赛完满落幕

社会成人培训机构何去何从？

相关推荐