欢迎登录《教育科学研究》杂志官方网站
当前位置:首页 > 特别推荐
特别关注 | 罗莹 韩思思:高考改革选考科目等级评定标准研究
作者:罗莹 韩思思   发表时间:2018-06-11

摘要

基础教育改革已进入攻坚阶段,具有高中教学风向标之称的高考更是进入了改革期。近年,高考改革试点地区出现了选考科目的高考成绩由考试策略决定的“田忌赛马”现象、物理学科选考人数大幅减少等问题。从现代教育测评的视角出发,讨论与分析试点地区高考选考科目等级设计存在的内在缺陷及选考科目出现问题的原因;从现代教育测评理论出发,通过与科学研究领域测评大量物体特征的公认方法的类比,探讨应如何科学合理地进行高考选考科目等级标准的设计,才能避免“田忌赛马”等问题,实现高考改革的初衷。

 

关键词

高考改革;现代教育测评理论;等级评定标准;量表化;等值技术

 

 

随着基础教育改革的深入,为解决一考定终身、文理分科等不利于人才发现和培养的现行高考模式的历史顽疾,减轻学生学业负担,提高学生综合素养,2014 年国家公布了高考改革及其配套方案,明确提出“全科覆盖”“分类考查”“不分文理”“两次机会”等措施。高考成绩包括语文、数学、外语等全国统考科目和思想政治、历史、地理、物理、化学、生物等科目中任选 3 科的成绩。选考科目的成绩由学生的学业水平考试确定。计入高考录取总成绩的学业水平考试 3 个科目的成绩以等级呈现。2017 年,高考改革方案已在试点地区顺利实施,但在试行过程中也出现了一些亟待解决的问题。对于试点地区出现的高考选考科目方面的问题,本文从现代教育测量理论出发探讨其解决之道。


 

一、试点地区高考选考科目出现的问题

 

高考改革的初衷是为了全面扩大学生的权利、有利于国家对人才的发现、培养和考核,这也是我国恢复高考40年来一直坚持的高考改革方向。为了扩大学生的权利,让学生有获得感,高考改革方案的设计意在让学生有更多的选择性,如,学生对文理科有了更多的自主选择科目。但是,高考改革方案在试行的过程中,也出现了与高考改革初衷相悖的现象,试点地区的学校、学生、社会和职能部门以急功近利的态度来应对高考,出现了不可忽视的明显的功利倾向,[1]这将严重影响高考改革的步伐和方向。在试点的浙江省出现了高考的成绩明显依赖于考试策略,而不完全由实力决定的“田忌赛马”现象,从而引发了“为求好的成绩放弃重要的难度偏大的物理学科,使得选考物理学科的人数大幅度减小”,“因多次考试分数不等值而反复考试、增加学生的负担”等突出问题。[2]这些现象的出现暗示着高考改革方案的设计存在着需要改进之处。下面详细分析浙江省高考选考科目的等级设计方案,以探寻其问题所在。

1所示的是浙江省高考方案设计的选考科目的21个等级,若某考生生物卷面成绩为百分制的 92分,当他的成绩排名在当次考试的前1%时,属于1等,计入高考的生物分数为100分;若成绩排名在当次考试的前10%,属于4等,计入高考分数为91分。依据表1的等级标准,高考分数由当次选考科目成绩在所有样本中的排名决定。而且不管哪门选考科目,当次考试都会“诞生”1%的满分考生,可见表1的等级划分方法本质是以相对标准来确定的,且每个选考科目的等级划分方法相同,这就导致原来在高考中承担区分学生的科目(如比较难学的物理学科)的选考人数大幅下降。按照浙江省高考选考科目的等级设定方法,选考学科学生的成绩按分布比例划分等级后,折算计入高考总分数,这个方法加大了试卷不同所引起的成绩差异。即,对于全部的考生群体来说,在两个学科上水平差不多的考生可能会出现很大的成绩差异;也就是说,不同学科的、相同的高考分数实际上并不代表考试的水平相同。这一方案设计带来的缺陷,导致在高考改革试点地区浙江省出现了上述问题。

 

显然,这个高考选考科目等级的设计没有实现高考改革的初衷,影响了正常的中学教学秩序,特别是对中学物理课程教学产生了严重困扰。选修物理课程的学生人数明显减少,导致了一系列严重的问题。首先,物理课程对于培养中学生的科学素养,特别是训练与培养中学生的科学思维能力具有其他学科不可替代的作用。中学生正处于科学思维发展最快的阶段,错过物理课程对于科学思维的培养与训练,对于中学生来说损失很大。其次,学习物理课程的学生人数减少,使得现有的中学物理教师过剩,干扰了目前正常的中学教学秩序。再次,纵观高考物理学科的发展过程,可以发现物理学科一直在高考中承担着区分与选拔学生的重担,大量的学生不选择物理引起了高考真实的区分度下降,减弱了高考的选拔功能,造成了高校录取困难。最后,对于理工科大学生来说,高中物理是必需的基础,若高中没有学习物理,势必在大学期间要补习高中物理,这就会导致大学其他课程课时的减少,最终会引起理工科大学生整体水平下降。


 

二、高考选考科目设计缺陷的内在原因

 

表面上看,试点地区高考改革出现的问题与选考科目的等级标准设置有关,但其背后实质的原因是高考改革方案忽视了现代测量与评价理论与技术的应用。

高考选考科目等级方案的设计注重了高考的公众性,关注了大众对高考方案的理解,却忽略了高考作为大型的教育测评必须具有的公平性、科学性和合理性。现代测评理论和国际上先进的大型水平考试等级设定的成功经验显示,任何一个考试的等级标准都不能依据特定考生群体中的相对水平来设定等级。按照比例划分等级须在大样本的前提下,即全省、全市的学生参加考试则按比例划分等级是合理的;但当选考某科目考生群体较为特殊时,如少数尖子生,则此法的实质是强行把少数尖子生的成绩正态化处理,这违背了教育测量学的要求。原本可以得到较高等级的考生大部分被降一等,少数甚至降两等,就会引起严重后果。必须将每次考试的结果通过等值技术映射到一个统一的标尺后,再设定等级,这样才能构建科学、合理和公平的高考改革方案。

试点地区出现的问题显然与高考选考科目的等级标准设置有关,那么,是否应该采用原来的百分制原始分呢?国际上的大规模考试,其考试成绩报告大多数以等级形式呈现。如,美国的AP考试成绩评定分为5个等级,而英国的A-level 考试成绩评定分为6个等级。这些考试成绩的评定都以试卷原始分为其评定依据,却不采用原始分报告。尽管原始分的百分制具有直观、简单、易得到广泛认同的优势,但也存在着两个明显缺陷。一是缺乏考生成绩的位置信息。得95分可能是全体被试中的最高分,也可能不是。二是缺乏可比性。如,对不同班级的AB同学来讲,学生A的物理成绩为70分,化学成绩为95分,学生B的物理成绩为95分,化学成绩为70分。用原始分来衡量,两个学生总分相同,成绩并列。但如果学生A的物理成绩处于全班最差水平,化学成绩处于全班中上水平,而学生B的物理成绩处于全班的最高水平,而化学处于中等水平,那么,实际上学生B的物理成绩要比学生A的化学成绩高,尽管他们的原始分都是 95 分。正因没有可比性,因此不能将分数简单相加,因为不同试卷分数单位价值不同。这就和将10元人民币与10元美元相加既不等于 20 元人民币、也不等于 20 美元是一样的道理。正是因为百分制的原始分数评定方法缺乏科学性,所以国际上的大规模考试都放弃了这种评定方法。


 

三、高考选考科目等级标准的科学设计

 

高考是我国基础教育领域中的重要考试,更是大规模的基础教育测评,其本质与科学研究领域的大样本测评是一致的。在科学研究中,要想测量与评估大量物体的尺度,必须先做好以下准备工作:首先,创建一个能够反映被测物体尺度特征的标尺并标上刻度;其次,评估标尺上的刻度是否与被测量样品的尺度分布相匹配,也就是需要评判标尺上的刻度是否能够反映全部被测样品的尺度特征。如果不能,则需要修改标尺上的刻度,使其与被测样品的尺度分布相符合。再次,校准测量工具。因为被测物体数量众多,需要多个工具同时进行测量。只有做好以上的三项准备工作,才能对大量样本进行全面、科学的测评。

教育测量的理论和国际考试行业的成功经验表明,做好学业水平等级考试工作,同样也需要与科学研究领域类似的、必要的三个步骤。[3]-[5]

第一,设定学业评定标准(Standard Setting),也就是创建测量的标尺及刻度。具体而言,学业评定标准包括内容标准和表现标准。内容标准是考试管理部门根据国家课程标准或者考试大纲编制的考试说明,包含有考试目的、对象、内容、能力、形式、样卷、样题、信效度指标要求、结果解释与使用等,也就是公众熟悉的考试大纲、考试说明等考试文件。表现标准则与考生的作答水平有关,是某等级考生对知识的认知水平、技能掌握程度的特征表现。学科专家需要依据试题情况给出回答试题考生在认知水平和技能掌握上的特征表现,并对试题难度作出初步判断,然后通过典型样本或者整体考生的成绩分布对各个水平的表现标准作出校验与修正。表现标准设定方法众多,主要分为两类:基于测试的方法(Test-centered Methods)和基于考生的方法(Examinee-centered Methods)。

第二,评估标准与样本分布间的匹配程度,通过分数量表化(Scaling)建立常模与评定标准间科学的对应关系。所谓常模是指一定人群在测验所测特性上的普遍水平或水平分布状况。对于大型考试而言,常模是一种以全体考生总体的表现水平为参照点的分数表达系统,通常用试卷原始分数与量表分数,或百分位等级,或其他分数之间的转换关系来表示。一般情况下,应选取全体考生的某些有代表性样本(常模样本)的数据为基础、运用现代测量学理论和方法来建立量表分数与原始分数间的转换关系,以使得量表分数具有一个有意义的参照点和单位,并符合大样本下遵从的正态分布理论。常模不但能够很好地反映全体考生在所测特性上的普遍水平,还能够很好地反映考生个体在全体考生中的相对位置。确立常模与评估标准之间科学、合理相互匹配的对应关系,是进行有效测量的重要条件。例如,测量课桌的长度(通常其特征长度为米),若用卡尺(测量的特征长度为毫米)进行测量,就会出现问题,既有测量困难、也测不准确,所以选用与被测对象特征相匹配的测量单位(测量工具),是实现有效测量的前提条件。

第三,进行测验等值(Equating),即校准每科、每次考试的测评工具。现代教育测量理论研发的测验等值技术,使得不同的考试结果可以进行比较。例如,借助测验等值方法,以某个测验(如中等难度的试卷)为标准参照,可以把比较容易的试卷的分数和比较困难的试卷的分数进行换算,得到中等难度试卷的分数。转化后的分数因为是同一份中等试卷分数,故可以被直接比较,以达到可以比较不同的考试结果的目标。需要注意的是,等值化的量表分数并不是根据学生原始考试成绩利用公式或者其他正态化方法计算出来的。在现代教育测量理论中的项目反应理论框架下,等值技术和方法越来越多。等值后的量表分数的最大优势是去除测验难度带来的学生成绩的起落,可以减少学生多次考试“刷分”的情况,在真正意义上减轻学生的负担。

各科目水平测试的等级标准设定应该建立在全部样本上,且每年每个科目等级设定的分界线应借助测验等值技术来完成。具体方法如下:对于首次考试的等级设定分界线的确定,应选取对全体考生来说具有代表性的样本参加首次测试,通过正态化方式或按比例确定各个等级的分数线,这个分数线需要受到信度和效度的公平性检验。在确定首次考试的分界线之后,每年考试均这样划定等级分数线:选取低一届学生的另一个代表性样本,参加首次测试和第二年测试,因为是同一样本的两次考试分数,可以通过年度等值的方式建立两次分数间的转换关系。第二年的分数可以转化为第一年的等值分数,根据第一年的等级分数线可以推出第二年应该设定的等级分数线,其他年度的分数线也可以此类推。[6]运用测验等值技术,可以避免当考生特别优秀时被强行按比例划分等级的情况。现行的美国高考SAT-1数学的量表就是定义在1990年的考试样本之上。[7]

只有确定科学的测评标准,建立能够反映全部考生水平特征的量表,并校准全部测评工具,才能解决高考选考科目方案的设计缺陷问题,无论考生选考哪个科目,其等级都是根据学科本身的标准和全部考生的代表性样本所确定的,而不是由学生应考时特殊的考生群体的水平所决定的。这就能够消除高考试点地区出现的“田忌赛马”等现象,消除高考选考科目方案执行中出现的短期功利倾向,从根本上实现高考改革的初衷,增大学生的权利,让学校、学生、家长和社会都能够有获得感,并成为我国发现、培养和选拔优秀人才的科学、有效的高考模式。

 

[注释]

[1] 浙江省教育厅. 浙江省教育厅办公室关于纠正部分普通高中学校违背教育规律和教学要求错误做法的通知[EB/OL].(2016-10-25).http://www.zjedu.gov.cn/news/147737035226665750.html.

[2] 刘希伟.关于浙江新高考改革的若干思考[J].教育与考试,2016,(3).

[3][6] 杨志明.学业水平考试成绩等级化中的风险及其规避办法[J].教育测量与评价,2015,(9).

[4] 杨志明.高中学业水平考试等级设定的若干方法[J].教育测量与评价,2016,(10).

[5] American Educational Research Association(AERA),American Psychological Association(APA),& National Council on Measurement in Education(NCME). Standards for Educational and Psychological Testing[M].Washington,DC:AERA,2014.

[7] 杨志明.学业水平考试事后等值的概念、条件与设计[J].教育测量与评价,2016,(11).

 

(责任编辑:刘宏博)

论文来源于《教育科学研究》2018年第6期