温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
不同
基准
年级
下锚题
难度
范围
离散
程度
垂直
量尺化
影响
心理学探新2 0 2 3,Vol.43,No.1,68-76PSYCHOLOGICALEXPLORATION不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响黎光明张晓婷(华南师范大学心理学院,心理应用研究中心,广州510 6 31)摘要:使用3PLM和蒙特卡洛法生成数据,基于非等组锚题设计,考察不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响。结果发现:(1)基准年级的选择会影响垂直量尺化的精度。(2)锚题设计下垂直量尺化的转换不宜超过两个年级。(3)不同基准年级下,年级离散程度越小,估计精度越好。(4)不同基准年级下,对锚题难度范围的选择应有所不同。(5)年级离散程度与锚题难度范围之间存在交互效应。关键词:垂直量尺化;基准年级;锚题难度范围;年级离散程度;测验等值中图分类号:B841.21引言垂直量尺化(vertical scaling),又名垂直量表化、垂直等值(verticalequating),是指在某个特质领域内,在纵向发展的不同水平(如年龄、年级)群体之间,建立关于群体或者个体特质水平发展状况的评价参照体系的过程(漆书青,戴海崎,19 9 2)。垂直量尺化广泛应用于TIMSS、PI SA 等国际大型测验(罗照盛,2 0 12;Kolen&Brennan,2013)。当不同测验之间的难度水平相差较大且受测者的能力水平存在一定差距时,不再满足测验等值(testing equating)中的水平等值(horizontal equating)条件,宜使用垂直量尺化,其能够有效评价和预估个体或群体动态发展水平和趋势,进而为教育发展与评估提供相关建议。垂直量尺化主要是用来描述某一群体的纵向发展水平,而水平等值需要建立各个平行测验之间的确切关系,相较而言,垂直量尺化的流程无需进行最后的测验等值步骤,却需将非平行测验转换到同一量尺(叶昶成,2 0 15)。对于能力不同层次的测验群体,比如小学14年级学生,必须选定一个年级作为分数转化的基准,将其他年级的分数转化到该年级上形成一个统一分数量尺,一般称为垂直量尺(v e r t i c a l s c a l e)或发展性量尺(developmental scale)。由于分数转化的算法是一个逐步叠加的过程,比如文献标识码:A文章编号:10 0 3-518 4(2 0 2 3)0 1-0 0 6 8-0 9从3年级转化到2 年级再转化到作为基准的1年级,所以当前年级距离基准年级越远,转化的次数越多,受到等值方法误差的影响可能就越大,垂直量尺化精度可能就越低(郭小军,2 0 14;梁正妍,2 0 17)。因此,在实践中通常选用处于中间的年级作为基准来减少误差。在构建垂直量尺的最初阶段,需要选定相应模型拟合被试的真实作答情况,针对二级计分的测验,通常会选择逻辑斯蒂克模型(Petersenetal.,19 8 9)。郭小军(2 0 14)采用两参数logistic模型(2 PLM)进行数据模拟,发现基准年级的选取和年级离散程度对垂直量尺化效果产生较大影响。梁正妍(2 0 17)同样采用2 PLM,探究年级离散程度与锚题比例对于垂直量尺化的影响,发现两者存在交互作用。近年来,国内外对于垂直量尺化的研究不断深,尝试从多角度、多方面来研究影响垂直量尺化精度的诸多因素,如基于不同模型、不同等值设计、不同题型种类、不同题目难度、是否包含题组、不同测验规模大小、不同被试群体差异、不同参数估计方法等(陈丽,2 0 14;Sari&Kelecioglu,2016;Carlson,2017)。在垂直量尺化设计中,锚题设计因其实际可操作性而应用最为广泛(王烨晖,边玉芳,2 0 10)。基于这种设计,有学者探讨了基准年级、年级离散程度对垂直量尺化的影响,发现基准年级的合理选取*基金项目:广东省自然科学基金面上项目(2 0 2 1A1515012516),广东省普通高校特色创新类项目(哲学社会科学)(粤教科函2 0 2 1 7号,2 0 2 1WTSCX020)。通讯作者:黎光明,E-mail:Lg m2 0 0 410 0 s i n a.c o m。第43卷第1期可以有效降低垂直量尺化的误差,同时,其与年级离散程度存在密切关系(郭小军,2 0 14)。梁正妍(2 0 17)对垂直量尺化中不同年级离散程度下锚题比例的选取进行了深入研究,发现锚题比例与年级离散程度有显著的交互作用。锚题的代表性对测验等值的影响一直以来受到众多研究者关注,其中典型的有锚题难度范围的代表性(叶萌,辛涛,2 0 15)。叶萌和辛涛(2 0 15)对垂直量尺化中锚题代表性问题进行了详细的阐述,提出了锚题难度范围的设定会影响垂直量尺化的精度,其将垂直量尺化中锚题难度范围设置为三种水平,结果发现不同锚题难度范围对垂直量尺化性能和参数返真都有影响,但其没有在不同年级离散程度的群体中进行探讨,未能发现年级离散程度和基准年级的设置对锚题难度范围选取的影响。在锚题设计中,如何选取难度合适的题目构成锚题是实践中的关键问题和难点。由于锚题处于低年级测验的结尾和高年级测验的开始位置,如果锚题选取不当,则会出现项目参数漂移(itemparameterdrift),即同样的题目在两个位置发挥不同的作用,从而降低垂直量尺化的精度(Wellsetal.,2 0 0 2)。过往的研究和实践中锚题是从低年级测验中随机抽取的,不能保证难度的代表性。对于如何设置锚题难度范围这一问题,Sinharay和Holland(2006,2007)研究发现,在题目难度和测验特征的关系中没有表明微型锚测验(锚题与总测验难度范围相匹配)是理想的锚测验,其设置了三种难度范围的锚测验,分别是微型锚测验、midi锚测验(在内容上对总测验具有代表性,但只包括中等难度的题目)以及半midi测验(难度范围小于微型测验,但大于midi测验),结果显示midi锚测验和总测验的相关稳定性高于微型锚测验和总测验的相关稳定性,midi锚的性能和微型锚的性能一样,后续的研究也验证了这一结论(Liu etal.,2 0 11)。C h in 等(2 0 0 6)在垂直量尺化中将锚题难度范围设定为小中大三个等级,结果发现不同锚题难度范围对垂直量尺化性能和参数返真都有影响,难度范围扩大会使这两种分析结果更准确。可见,在实际应用中设置锚题难度范围的标准是十分重要的。前人对于垂直量尺化影响因素的研究较为深人,分别从被试数量、题目数量、年级数量、基准年级、年级离散程度、锚题比例、难度范围等方面对垂直量尺化的影响进行了较为深入的探讨。但是,前黎光明等不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响69人的相关研究仍然存在以下问题:一是多采用两参数logistic模型(2 PLM)来估计项目参数和能力参数,未能估计猜测参数c,实际上,相比2 PLM,三参数logistic模型(3PLM)更加适用于可猜测作答的选择题等客观题型(戴海琦,张峰,2 0 18),使用范围增大,可能将提高垂直量尺化的精确性;二是对于锚题的代表性研究,未能同时关注“锚题难度范围”和“基准年级选取”,缺乏探讨对于不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响,这对于锚题设计下的垂直量尺化研究来说,是可以深人分析的方向。基于此,本文对锚题的选取提出了更高的要求,以不同锚题难度范围和不同基准年级“联合作用”为突破点,使用3PLM,探讨不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响。2方法2.1研究设计采用2 33三因素随机实验设计,自变量1为基准年级(边缘年级,中间年级);自变量2 为锚题难度范围(较小low,igh、中等low-,high+、较大1ow-2g,high+2);自变量3为年级离散程度(相邻年级间效应ES大小:0.5、1.0、1.5)。因变量为等值精度指标Bias和RMSE(Brigs&Peck,2015;Briggs&Dadey,2015)。(1)基准年级。对于基准年级的选择一般有两种,即边缘年级(低年级或高年级)和中间年级。本文设定了四个年级,对于基准年级,边缘年级为1年级,中间年级为2 年级。采用非等组锚题设计,锚题为相邻年级共用的题目。(2)锚题难度范围。依据Chin等(2 0 0 6)选取标准,分别选取锚题难度范围较小(两个相邻年级能力均值之间),锚题难度范围中等(低于低年级群体能力均值一个标准差和高于高年级群体能力均值一个标准差之间),锚题难度范围较大(低于低年级群体能力均值两个标准差和高于高年级群体能力均值两个标准差之间),作为锚题难度范围的指标。(3)年级离散程度。垂直量尺化的结果一般从三个角度进行评价,即跨年级增长(grade一tograde growth)、跨年级变异(grade t o g r a d e v a r i a-bility),以及年级间的离散程度(separationof gradedistribution)。其中,年级间的离散程度应用最为广泛,是指两个相邻年级的量尺分数分布的重叠程度,俗称为“年级离散程度”。多数研究使用效应大小70(Ef f e c t Si z e,ES)这一统计量来表示年级离散程度(Ye n,19 8 6),其计算公式为:i(Y)m-i()oaES=一()o()2在公式(1)中,i(Y))(Y)m表示高年级能力水平的均值和方差,i(Y)i o me r v o 2(Y)i o e r 表示低年级能力水平的均值和方差。随着ES的上升,年级间的增长趋势增大。对年级离散程度的选择包含年级离散程度较小(ES=0.5),年级离散程度中等(ES=1.0),年级离散程度较大(ES=1.5)。(4)固定变量。蔡艳等(2 0 0 9)通过固定被试数和测验长度,得出当测验长度为10 0 时锚题比例最低可达14.2 9%。熊建华等(2 0 10)提出当测验长度为6 0 0、30 0、2 0 0、10 0 题时,相应比例可以降低到1/15、1/12、1/10、1/5。参考前人研究,本文锚题比例固定为2 0%。题目数固定为10 0,年级人数固定为1000。2.2模拟流程分别以低年级和中间年级作为参照基准,使用自编R3.0程序,基于蒙特卡洛模拟法,采用三参数logistic模型获得四个不同年级组被试在本年级上的作答矩阵。模拟四个年级上各10 0 道题目的项目参数以及各年级10 0 0 名被试的能力参数。使用BILOGM G 软件进行同时估计(Yildirim,2014),计算不同锚题难度范围以及不同年级离散程度下4个年级的偏差Bias和返真性参数RMSE。以低年级为基准年级为例,具体模拟过程见图1。2.3评价指标常用的垂直量尺化评价指标为Bias和RMSE。(1)Bias,即平均偏差,是考察真值与估计值之间偏差的一个指标,其主要用于检测研究中是否含有系统误差,以及偏差的方向性问题。Bias值为正,代表低估,Bias值为负,代表高估。Bias=nxR(2)R M SE,即均方根误差(RootMeanSquareError),是真值与观测值偏差的平方和观测次数n比值的平方根。均方根误差对一组测量中的特大或特小误差反映非常敏感,所以能够很好地反映出估计的精度。RMSE是对一组测量数据可靠性的估计。RMSE越小,测量的可靠性越大,估计精度就越高。心理学探新设定基准年级1的能力u,-0,8,-1,其余年级被试能力8-1,通过效应大小公式,计算能力均值u2、u 3、u 4。(1)模拟生成等值系数,分别记为A12与B12、A 2 3与B23、A 34与B34。将年级2、年级3、年级4的能力值都转换到各自年级水平量尺上。模拟年级1的10 0 道题,其中2 0 个符合锚题难度范围条件的题,组成年级1与年级2 的锚题。模拟年级2 的8 0 道题,其中后2 0 道题为符合锚题难度范围条件的题,组成年级2 与年级3的锚题。模拟年级3的8 0 道题,其中后2 0 个符合锚题难度范围条件的题,组成年级3与年级4的锚题。模拟年级4的8 0 道题。对模拟的作答矩阵,用BILO