教育也需要“诊断报告”——大规模教育测试结果报告的若干趋势

【世界教育之窗】

作者：刘轩（南京工业大学副教授，教育学博士）

【资料图】

近年来，随着教育评价理念的不断更新和测试技术的快速发展，国际上诸多大规模教育测试把关注的重心放到了测试结果上。就像到医院体检后会得到一份详细的“诊断报告”一样，参加大规模教育测试的学生也会得到相应的结果报告——用来分析自己水平高低或能力强弱及其背后的成因，从而实现精确诊断和快速改进的目的。

结果报告成为大规模教育测试的关键环节

从心理学的角度来看，大规模测试就是通过一系列外部刺激来收集被试的行为反应，并进一步推断其潜在特质水平的过程。之所以称这种特质是“潜在的”，是因为它无法和物理测量中的身高、体重那样被直接观测和度量。不同的测试，其测量的潜在特质是不一样的，它可以是能力、成就、个性倾向、人格态度、价值观等，也可以是教育领域中的学业水平、学术成就。当我们用一定数量的试题来收集学生的作答反应，并把不同考生的水平用数量化的方式描绘出来时，这就是考试。由于测量目标、功能等方面的差异，不同测试在处理考生作答时采用的统计分析方法很不一样，这导致测试最后提供的结果报告也各不相同。有些结果报告非常简单，就给出一个分数或等级，有些则经过极其复杂的分数转换来给出详细的描述。

对广大被试或考生来讲，参加考试最重要的就是得到一个体现自己真实水平的结果。在实践领域，测试结果常常被用于各种重要决策，如高校选拔、升学鉴定、优劣评判等。这不得不让研究者和从业者高度重视结果报告的科学性、公平性。“如果忽视了测试的结果报告，那之前的所有努力都将白费”，这已经成为国际测试行业的共识。目前，国际上最权威的行业标准——《教育与心理测试标准》就多次提到了结果报告的重要性，甚至对一些具体的技术指标做出了明确规定：如测试机构应该负责提供关于测试结果的正确解释；结果报告的信息应该包括内容范围、测试结果的含义、精确性、结果使用等；结果报告要给出每个分数或等级的测量误差，并且提供与结果解释有关的信息。教育是大规模测试应用最为广泛的领域。每年全世界都有数以亿计的考生参加各种考试。受《教育与心理测试标准》等国际行业标准的影响，当前大规模教育测试在结果报告上呈现出了以下几个新趋势。

趋势一：结果报告经过相应的分数转换

无论什么样大规模测试，最后都要呈现一个数字化或等级化的结果来对测试群体的水平进行区分。在教育考试中，这个结果一般体现为分数或等级。出于科学性和公平性的考虑，目前国际上知名的考试如SAT、ACT、TOEFL、IELTS以及大规模测试项目如PISA、TIMSS，其结果都是经过复杂的统计处理而得出的，这个过程通常都涉及必要的分数转换。以TOEFL为例，作为一个面向全球的考试，它需要满足来自不同国家和地区的考生，在不同时间参加不同版本试卷测试的需求。而在申请大学时，TOEFL的分数又必须是准确一致和高度稳定（成绩两年内有效）。这必然要求考试设计者采用相应的考试技术，以确保各次考试分数尽可能不受试题难度的影响。如果某次TOEFL考试的试题过难或过易，那对参加该次考试的考生就非常不公，高校在选拔学生时也会无法评估考生的真实水平。备受关注的PISA，其测试使用的试卷并不是全球都完全一样，而是有多种试题组合并形成不同版本的试卷。PISA在全球几十个国家和地区测试时就面临与TOEFL一样的问题。分数转换是对考试结果进行技术处理后的一个必要环节，它使得测试结果更加科学公平和更容易解释。因而，转换后的分数，因其操作过程的模式化和结果的稳定性，常被认为是一种具有相应标准的分数。

趋势二：结果报告具有诊断和改进功能

对于一个大规模测试来说，分数或等级是结果报告的主要呈现形式。但如果仅仅局限于这样一些数字，那显然是不够的。随着测评技术的发展，诊断性的结果报告在实践中产生了深远影响。与传统单一的“分数条”相比，诊断性结果报告的内容更加丰富、细致，对测试者的能力、水平的剖析也更加精准。例如，在PISA公布的测试结果中，我们不仅可以看到各国或地区在各个素养上的总分，还可以进一步了解在某个素养的次级维度上的表现以及在某个维度上的不同水平，这使得测试结果具有相应的诊断功能，也更有利于参测的国家或地区深入分析成绩的归因并采取有针对性的改进措施。在教育考试领域，SAT、ACT的结果报告在内容上不仅更加丰富，而且还按需提供给多个利益相关者，其中包括大学、中学、政府甚至媒体和公众。其中，SAT提供给学生的结果报告包括总分、分项成绩、分测验分数、跨学科分数、子维度分数以及相对应的百分位数。在面向其他对象的结果报告中，SAT提供了更为详细的结果，包括在国家或者州参照群体中的位置、在各类问题上表现、作答情况、原始分数等等。ACT的结果报告同样丰富而且涉及范围更广，除了各种分数、百分位数、水平等级等基本的统计结果之外，还包括学生的高中、大学、职业、专业选择和生涯规划的信息。这些结果综合了考生的背景、学习状况、学科能力、个性倾向、兴趣爱好等等，基于此对学生做出的评价显然更加全面和深入，也有利于学生提升自我认知水平，有利于高校提高人才选拔成效，有利于中学改进日常教学和管理工作。

趋势三：在真实情景中对结果报告进行描述和解读

从统计测量的角度来进行分数解释丰富了结果报告的内容，完善了测试的功能，但仅仅围绕这些统计数字来分析仍旧是有局限的。举个简单的例子，只要有一把尺子，我们就很容易测量出一个成年男性的身高，比如170cm，这是一个客观测量值，但这样的身高究竟意味着什么，则在很大程度上取决于测量目的。如果说为了选拔国家篮球队的运动员，这个身高恐怕远远不够。但在日常生活中，对这样的身高也不能轻易得出个头矮的结论。测评领域的专家早就认识到：一系列统计分析后的结果可以用来判定优劣和区分测试者，可无论这些结果多么丰富，还是无法解释其背后深层次的含义。近年来，国际测试行业开始结合测量目标本身来尝试新的结果解释方式。通俗地讲，就是在原来描述测试结果“是什么”和“怎么样”的基础上，进一步描述得到这些结果的测试者“能做什么”。例如，上面提到的ACT，它给考生的结果报告除了多个分数的统计值外，还有与这些分数相对应的行为描述，并且进一步预测学生在大学不同专业上获得成功的概率。同样，TOEFL考试的结果报告也有对取得该分数考生所对应能力的描述，包括水平分析、分数说明和学习建议。TOEFL阅读部分的测试结果甚至纳入蓝思分级阅读框架体系中。这个框架体系是用来评估英语阅读能力和阅读材料难度的一套标准，在国际上拥有较高的权威性和广泛影响力。TOEFL的阅读分数和它对接之后，有利于考生看到分数所代表的真实阅读能力，并据此来选择与自身水平相适应的阅读材料，从而达到精准匹配的目的。

最后需要强调的是，国际上这些具有广泛影响的大规模教育测试，之所以需要引入复杂的统计技术来对测试结果进行分数转换，除了考试实施的客观需求和在科学与公平上的不懈追求外，一个很重要的原因是由其特殊的结果使用方式决定的。大规模教育测试一般都伴随着重要决策，但在很多国家，这些测试结果仅仅是影响决策的一个重要因素，而不是唯一因素。如SAT、ACT和TOEFL等用于升学录取的考试，其考试结果仅仅是高校人才选拔中的众多指标之一。考生在申请这些高校时，除了考试成绩之外，一般还需要准备多方面的材料，甚至还会参加面试。大规模测试是一个并不复杂的技术活，但测试结果的使用方式背后则有着深刻的文化、制度、社会、心理等方面的成因。不管怎样，让测试结果更加科学、公平和精准，让测试结果更好地发挥诊断和改进功能，是国际测试领域一个长期努力的方向。

（本文为全国教育科学规划2022年度教育部重点课题《新高考结果评价改进的创新应用研究》〔编号：DFA220435〕的阶段性成果）

《光明日报》（ 2022年12月22日 14版）

推荐内容

胡兵受邀出席纪梵希2024春夏大秀 酷MEN搭配彰显真我个性 快资讯

热消息：万字重磅来了！下半年A股怎么走？赵诣、崔宸龙等绩优基金经理把脉

鲍鱼焖肉最正宗的做法? 快播

南宁房天下vr全景看楼盘_南宁房天下官网 当前热议

《星空》90%的星球将没有生命

速看：韩兆最新电视剧什么时候上映_韩兆最新电视剧

世界热头条丨方格里打勾符号怎么打_打勾符号怎么打

这个端午节 四川发放消费券1.5亿元

liekkas经典歌曲（liekkas歌曲表达什么）

选秀评级：火箭神操作比肩马刺选文班，勇士妙选湖人C快船D

天天头条：仅借条可以起诉吗

2023深圳市大鹏新区幼升小录取方法|世界今亮点

环球观焦点：深度美化_深度美化主题包

乐山犍为：积极破解新业态新就业群体党建工作难题-焦点报道

超越时空的思念_超越时空|当前消息

预调鸡尾酒板块龙头股一览表（2023/6/25） 世界通讯

多元合作成就中巴友谊新标杆_每日看点

如何判断活塞环是否断裂_怎样判断更换了活塞环 如何判断活塞环是否该换

视点！中央气象台继续发布高温、暴雨黄色预警

内蒙古乌兰察布:全力打造马铃薯产业“航母”

缺氧乔木星体是什么

当前聚焦：999元 泰坦军团24.5寸显示器上架：FAST IPS面板、165Hz高刷

前5月陕西新能源汽车产量同比增长44.2% 占全国新能源汽车总产量的12.4%_天天观察

5月最畅销游戏：腾讯《王者荣耀》创收入新纪录-世界热讯

讯息：马背上的足球队绽放“村超”之夜

环球看点！2021河南高考一分一段表理科成绩排名

驿路行歌 环球最新

国金证券：给予博众精工买入评级，目标价位41.58元

世界今日报丨禁毒定向越野、知识竞赛 福田文化娱乐行业禁毒宣传系列活动精彩纷呈

端午节旅游数据报告：短途自驾游成出行首选 “避暑游”受追捧

中国石油天然气集团有限公司原副总经理徐文荣接受审查调查_热点在线

全球速看：端午假期天津文旅订单同比增380% 跑赢全国大盘

洛克王国独角兽幼果在哪儿_洛克王国独角兽幼果在哪|微资讯

文科生可以报哪些大学专业（文科生可以报哪些大学）

雪松信托因产品净值化管理不到位等违规被罚220万元 多名责任人被警告并罚款

当前视讯！好评中国·漫评丨它，托起十四亿中国人的饭碗

我国靶材市场将达到431亿元，ITO是HJT光伏电池生产主流靶材 天天观焦点

内胆包有必要买吗（内胆包）

端午假期 兰州高星酒店预订量增长超19.5倍

近期电力行业的一些事

焦点要闻：安逸四川日历海报丨邛崃天台山：满眼翠绿清凉

【当前独家】端午假期天津文旅订单同比增380% 跑赢全国大盘

普里戈任接受白俄缓和局势建议 其刑事立案将获撤销

民事诉讼法中的级别管辖 环球观察

“Hi保定·Ye无限”丨魅力夜游！与古城赴一场绚丽之约

天天新动态：台式电脑没有wlan只有以太网（电脑没有wlan选项只有以太网）

女篮亚洲杯十大球星：韩旭第一 李梦位居第四-环球即时看

世界今日报丨江苏中小学教师资格考试（江苏中小学教师资格考试时间）

奥迪标识的含义是什么意思_奥迪标识的含义是什么

环球速讯：普京发表电视讲话说将采取果断行动稳定局势

世界热头条丨他干出900亿估值：极兔要IPO了

上善若水_上善若水 水善利万物而不争 处众人之所恶 故几于道是什么意思 请|天天热门

天天看点：如果这是你第一次看到这个错误屏幕_如果这是你第一次在该电脑上使用uplay

全省城镇燃气安全工作专项督导，首站走进成都液化石油气充装点

图片报道

当前时讯：国内首条跨省轨交系统无感换乘线路开通

速递！呈现更接近历史真实的古人类生活

俄罗斯主要银行大幅提高美元、欧元汇率，美元兑卢布最高涨至105

cordierite_cordier-天天报道

Ⓜ节日祝福丨北京福建企业总商会恭祝大家端午安康！-当前动态

两百万卢比是多少人民币_200万卢比对多少人民币

当前看点!鲶鱼王饺子城_关于鲶鱼王饺子城简述

五个月宝宝早教英语_五个月宝宝早教 视焦点讯

延绵的路_乾帝短信平台

中国好声音明星客串邓超_中国好声音明星客串-速看料

每日精选：端午假期广东累计接待游客2022.9万人次 同比增长74.7%

宾阳蔡氏书香古宅群景区（关于宾阳蔡氏书香古宅群景区介绍）

农村淘宝店怎么开 怎么申请_农村淘宝

gamesafe.qq.cm官网_http gamesafe qq com

环球即时：这个端午节 四川发放消费券1.5亿元

当前关注：女星红毯亮相精彩

战略定位是啥意思-战略定位怎么写

游客同比增长54.83%！这个端午四川A级景区人气旺｜安逸四川 潮玩端午 报道

环球快消息！浦银安盛创业板ETF净值下跌1.70% 请保持关注

“食在广州”如何赋能国际消费中心城市建设？广东烹饪协会开展调研聚焦创新与高质量-今日热闻

世界热资讯！新世代全顺Pro轻客造车思维转变的萌芽

湖南有个再生村是真的吗_湖南再生人村骗局-每日短讯

新“夜”态点亮京城 端午期间夜间实物商品消费同比增44% 全球今热点

全球信息:新疆克孜勒苏州乌恰县发生3.0级地震，震源深度20千米

胡兵受邀出席纪梵希2024春夏大秀酷MEN搭配彰显真我个性快资讯

南宁房天下vr全景看楼盘_南宁房天下官网当前热议

这个端午节四川发放消费券1.5亿元

预调鸡尾酒板块龙头股一览表（2023/6/25）世界通讯

如何判断活塞环是否断裂_怎样判断更换了活塞环如何判断活塞环是否该换

当前聚焦：999元泰坦军团24.5寸显示器上架：FAST IPS面板、165Hz高刷

驿路行歌环球最新

世界今日报丨禁毒定向越野、知识竞赛福田文化娱乐行业禁毒宣传系列活动精彩纷呈

雪松信托因产品净值化管理不到位等违规被罚220万元多名责任人被警告并罚款

我国靶材市场将达到431亿元，ITO是HJT光伏电池生产主流靶材天天观焦点

端午假期兰州高星酒店预订量增长超19.5倍

普里戈任接受白俄缓和局势建议其刑事立案将获撤销

民事诉讼法中的级别管辖环球观察

女篮亚洲杯十大球星：韩旭第一李梦位居第四-环球即时看

上善若水_上善若水水善利万物而不争处众人之所恶故几于道是什么意思请|天天热门

五个月宝宝早教英语_五个月宝宝早教视焦点讯

每日精选：端午假期广东累计接待游客2022.9万人次同比增长74.7%

农村淘宝店怎么开怎么申请_农村淘宝

环球即时：这个端午节四川发放消费券1.5亿元

游客同比增长54.83%！这个端午四川A级景区人气旺｜安逸四川潮玩端午报道

新“夜”态点亮京城端午期间夜间实物商品消费同比增44% 全球今热点

天天快资讯丨C视觉·每日一图丨“蓉火”相传谱写成渝“双城故事”新篇（2023年6月24日）

热门：应用生物教育学什么课程及毕业薪酬岗位去向就业前景怎么样

全球快讯:剁椒用什么辣椒剁辣椒一斤辣椒要多少盐最合适

环球精选！“救”在身边亚运同行 ——南庄兜村文化礼堂开展红十字救护员培训

暴雨黄色预警继续发布湖南广西等地部分地区有大暴雨

教师节祝福语古诗教师节祝福语古诗句今日讯

环球新动态：绵阳文科654分考生曾昱菡：爱读名著也看网络小说想当老师研究国际关系

北部湾发生5.0级地震海南省地震局：近期海南岛发生破坏性地震的可能性不大-环球微头条