计算机自适应测试:概述与介绍外文翻译资料

 2023-03-19 11:03

计算机自适应测试:概述与介绍

Rob R.Meijer, University of Twente

Michael L. Nering, Advanced Systems

摘要:自20世纪70年代首次提出计算机自适应测试(CAT)以来,人们对它的使用大幅增加。本文概述了CAT,并介绍了它对特殊议题的贡献。这里讨论的CAT的要素包括项目选择程序、潜在特征估计、题目曝光度、测量精度和试题库的开发。本文还提出了未来研究的一些课题。

关键词:适应性测试; 计算机自适应测试; 试题库; 项目反应理论; 选题; 题目曝光度

计算机自适应测试(CAT)的目标是为每位考生构建一个最佳测试。为了实现这一点,考生的特质水平(theta;)将在考试期间进行估计,并从题库中选择适合考生的theta;的项目。项目反应理论(IRT)模型用来描述受试者的反应行为,根据该模型可以选择与受试者估计特质水平theta;相匹配的项目。与纸笔(Pamp;P)测试不同的是,不同的考生可以接受不同长度的不同测试。

自从20世纪70年代和80年代进行的最初的CAT研究(Lord,1971,1977;Weiss,1982,1983)以来,更多的研究已经涌现(例如Drasgow amp; Olson-Buchanan,1999;Sands,Waters amp; McBride,1997;van der Linden amp; Glas 待发表;Wainer,1990)。在1999年全国教育测量委员会年会上,25%的论文都是关于CAT的。当前的研究主题包括题库开发、项目选择程序、特质水平评估程序,以及相关的一系列主题,如测试安全性和测试分数的可靠性。本期特刊发表的论文涵盖了这些领域的最新发展。

在美国,有几项考试都用上了一个可实际操作的CAT版本,例如研究生入学考试(教育测试服务,1996)和计算机化入学考试(大学委员会,1993)。几个许可证委员会也实施了CAT版本的测试,包括国家护理委员会和国家医学检查委员会。此外,美国国防部还实施了一个CAT版本的“武装部队职业能力倾向组合”(ASVAB;Sands等人.,1997)。CAT在美国之外也越来越受欢迎。例如,在荷兰,国家教育测量研究所最近发布了两个CAT系统,一个用于将考生分配到数学课程的不同级别,另一个用于评估特定数学课程的成绩(Verschoor amp; Straetmans 待发表)

与纸笔测试相比,CAT有几个优点。更短的测试、更高的测量精度、按需测试以及即时的测试评分和报告都使CAT非常有吸引力。然而,CAT最初投入的成本会很高,需要大量的财政和人力资源来组织一个CAT项目。在许多情况下,还需要进行复杂的技术、经济和政治改革,这可能会产生不可预见的影响(Sands等人,1997)。例如,尽管在最初,测试安全性似乎是CAT的最大优势之一,但现在却成为了它其中的一个主要问题。同时,试题库需要不断更新,以确保试题和测试的安全性。这些都大大增加了实现可操作的CAT系统的成本。虽然CAT应用程序存在各种问题,但它们的优势远大于缺点。

CAT中特质水平theta;的估计与试题的选择

theta;的估计

对于一个由g=1,2,hellip;,G这些题目组成的试题库,其中表示k=1,2,hellip;,的CAT测试题中的第k题,是考生j的最终测试长度,正确回答某一题的条件概率可以用IRT模型来描述。在IRT中,项目特征和答出正确答案的概率是theta;的函数(Hambleton amp; Swaminathan,1985)。条件概率由项目响应函数(IRF)组成。对项目得分向量,必须就s做出某些决定。通常使用1-,2-或3-参数逻辑模型(1-、2-、3PLM)来指定。三参数逻辑斯蒂模型的定义如下:

其中

是斜率(或项目区分度)参数,

是项目位置(或难度)参数,

是较低的渐近线(或伪猜测)参数,即对于theta;非常低的考生,正确回答的概率。

2-PLM就是将所有项目的c设为0,1-PLM(或Rasch)模型则是更进一步,还将所有项目的a设为1。

IRT假设项目分数是局部独立的;因此,在CAT中完成第k个项目后出现评分模式的可能性由下式给出:

计算以获得第k个项目完成后的当前theta;估计值(),该用于自适应地选择下一一道题目。似然函数和后验密度函数也可用于theta;的估计。在最大似然估计(MLE)中,是使特定项目得分模式的L最大化的theta;值。

使用最大似然估计时,假设项目符合IRT模型,且其参数已知。MLE往往是一致且高效的(Hambleton amp; Swaminathan,1985),但它有几个问题。首先,对于满分模式(全部正确)或所有项目都不正确的情况,似然函数的极大值不存在。第二,高theta;值的会被高估,而低theta;的则会被低估(Lord,1983)。

目前已经开发出了几种替代MLE的方法。例如,Warm(1989)提出使用加权最大似然估计(WLE)。WLE计算出的是使加权似然函数最大化的的值。对于1PLM和2PLM,权重等于测试信息函数的平方根。Warm通过研究证明,当使用相同的渐近方差时,WLE比MLE的偏差更小。此外,WLE也可用于不符合MLE的计分模式。

MLE的另外两个替代方案彼此密切相关。在预期后验概率(EAP)和最大后验概率(MAP)估计中,来自响应模式的信息和关于总体的信息被结合起来:EAP是后验分布的平均值,而MAP是模式。通过使用先验分布的额外信息,EAP和MAP可以改进theta;估计,避免的不合理值。这些方法的一个局限性是,当估计的可能性和先验分布的平均值之间的差异很大时,得到的将回归到先验分布的平均值。

除了上述方法(所有这些方法都依赖于差异项目权重),还有其他基于对错分数而非反应模式的方法(参见Dodd amp; Fitzpatrick,1998年的综述)。虽然对错分数只是1PLM的最佳估计值,但基于这些分数的方法更容易向考生解释,因此在实践中更容易被接受。

在这个问题上,Wang,Lau和Hanson比较了EAP和MAP估计。他们表明,MAP的偏向性比EAP小,但标准误差略高。

题目的选择

计算机自适应测试中的项目选择是测试过程中的一个程序,在考生回答每个项目后,能够根据考生的自适应地选择题目。IRT理论使这一程序成为可能,它可以从概率上预测考生对某个项目的反应。试题选择的两种主要方法是最大信息量方法(Lord,1977)和贝叶斯项目选择方法(Owen,1975)。

在最大信息量方法中,选择在处最大化Fisher信息的项目。在这种方法中,是误差方差倒数的期望值。此外,选择的项目应尽量减少对标准误差的预期贡献。信息量能作为选择标准主要是因为它是可加的。每个项目都会为总数贡献一些信息,这些信息完全取决于项目参数。注意,对于题目(其中k=1,2,hellip;,Nj),对theta;的MLE的贡献为

其中,而测验信息函数可表示为:

Veerkamp amp; Berger(1997)提出了一种选择算法,在theta;连续体的置信区间内选择平均信息最高的项目。这允许在选择项目时考虑的不确定性。

Owen(1975)的贝叶斯项目选择程序基于预期后验方差的概念。假设在测试的每个阶段都有一个先验分布,theta;的后验分布在kminus;1前述各项为:

然后可以评估从对任何项目的任何响应中获得的精度,并选择期望后验方差最小的项目。尽管由于计算的复杂性,Owen(1975)使用了真实后验分布的正态近似,但范德林登(1998a)提出了几种基于真实后验分布的贝叶斯项目选择方法。对于短期测试(5-20个项目),使用项目响应的后验预测分布,公式如下:

在这个选择算法中,大大降低了估计的均方误差。然而,贝叶斯和最大信息量标准都必然导致在较长的测试中选择相同的项目。

自适应测试所采用的策略可以使用贝叶斯、最大似然和最大信息量方法的组合。例如,CAT-ASVAB使用贝叶斯方法来估计完成每个项目后的theta;,并使用最大信息量标准来选择项目(Sands等人,1997)。Thissen amp; Mislevy(1990)和Schnipke amp; Green(1995)对项目选择算法进行了介绍和比较。

最大信息量和贝叶斯准则通常与选择方法相结合,这些方法对管理的项目的类型和数量施加限制。内容约束允许选择具有特定内容特征的项目。曝光控制约束控制项目曝光的频率。Stocking amp; Swanson(1993)使用加权偏差模型选择项目,其中规定了所有约束,包括项目信息约束和暴露率约束。

在这个问题上,Eggen和van der Linden、Scrams和Schnipke提出了新的试题选择方法。Eggen提出了一种将考生分为不同类别的方法,van der Linden等人提出了一种减少时间限制对考生表现的差异影响的方法。速度问题很重要,因为具有相同theta;的考生需要不同的时间来完成一个项目。因此,时间限制可能会歧视那些theta;相同的考生中需要更多时间的考生。van der Linden等人提出的项目选择方法旨在通过在线性规划模型中使用响应时间分布作为约束来减少这种影响。在Eggen将考生分为不同类别的项目选择方法中,项目的选择基于Kullback-Leibler信息,而不是Fisher信息。当必须做出通过/失败或安置决定时,分类是相关的。

试题曝光度

在CAT中,选取同一题库持续进行测试可能会导致项目暴露问题。项目可能会被考生知晓,这可能会抬高后续考生的分数。此外,一些题目可能许多考生都最做到过,而部分题目则从未被抽取过。Davey amp; Nering(1998)对这一问题进行了广泛讨论,并描述了各种处理方法:(1)在测验期间控制题目曝光率;(2)管理试题库;以及(3)在进行测试后检查并纠正任何异常反应。

曝光度控制程序的目标是通过限制试题的使用频率来控制试题的使用。Sympson amp; Hetter(1985)提出了一种曝光控制方法,其中为每个项目分配一个曝光参数(介于0和1之间)。通过从均匀分布生成一个随机数,并将该随机数与所选项目的曝光参数进行比较,在选择算法中使用该信息。如果曝光度参数大于随机数,则抽取该题;否则,将重新选择一题。这个过程可以通过调节theta;或测试分数来改进。

试题库管理由库轮换等程序组成。在该程序中,题库用于规定的时间段或一定数量的考试管理(Davey amp; Nering,1998)。一旦达到这些限制,旧库将被新的试题库取代,最终旧库将再次使用。Swanson amp; Stocking(1993)设计了一个基于加权偏差模型的启发式轮换试题库系统。V eldkamp amp; van der Linden(待发表)讨论了使用整数规划模型从一组测试规范中组装测试,以使项目生产成本最小化。

在调查测试后的反应模式时,目标是确定项目分数是否符合假设的IRT模型。该程序旨在检测可能导致非匹配响应模式的物品的预先知识。原则上,个人匹配统计数据可以用来识别这种异常的得分模式(McLeod amp; Lewis,1999;Nering,1997;van Krimpen Stoop amp; Meijer,待发表)。这些程序也可以与暴露率控制和试题库管理结合使用。在进行测试后,可以使用模拟项目分数来评估对意外试题分数的稳健性。然后,可以在不同程度的项目预先知识下比较真theta;和之间的差异。

项目曝光是否成为一个问题取决于测试管理的频率和获得项目预先知识的方式。Stocking、Ward和Potenza(1998)调查了试题泄露的影响。在他们的研究中,他们发现预先知识可能会对考试成绩产生影响,但与重新测试时发生的变化相比,这些增加相对较小。这证明了在CAT中使用之前曝光过的项目是合理的。

Segall amp; Moreno(1997)讨论了一项模拟研究的结果,该研究调查了项目预先知识作为(1)告密者数量的函数的影响;(2)被试与被试之间theta;水平的对应关系;(3)项目泄露方法。结果发现,与纸笔测试相比,在最低模拟theta;水平(theta;=minus;2)以及一群同质学生总,CAT测试的分数增加更多。为了减少项目预先了解的影响,Segall和Moreno提出了四个建议:(1)增加测试长度,(2)增加CAT版本的数量或项目库的数量,(3)降低Sympson-Hetter算法中的试题曝光率,以及(4)增加试题库中的试题数量。

在本期中,张和英提出了一种降低目标暴露率的方法。他们的方法通过首先根据项目区分将项目库分层为同质水平来控制曝光率。然后,从区分度水平内选择项目,早期项目从区分度较低的项目中抽取,后期项目从区分度较高的项目中抽取。在每个级别中,选择难度参数最接近考生theta;的项目。这一程序背后的基本原理是,由于theta;在CAT刚开始测试时估计得很差,因此在测试早期使用高区分度的试题不会提供最大信息量,反而增加这些更有价值的试题的曝光度。

可靠性与信息

经典测试理论假设测量误差在所有theta;水平上都是恒定的。对于纸笔测试来说,这通常是不现实的假设;低theta;值得考生的测量误差预计高于高theta;值的考生。然而,IRT允许使用Fisher信息量在不同的theta;水平上确定测量精度(式3)。当使用基于theta;特定标准误差的CAT停止规则时,高theta;水平和低theta;水平的测量精度相似。因此,CAT提高了测量精度,尤其是在theta;标度的极端,并在整个theta;标度范围内使其均衡。

一些

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[594176],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。