单参数单维度Rasch模型的优势与意义

摘要

相比多参数多维度IRT模型通过增加参数的方式来提升模型拟合度和解释度,Rasch模型流派强调“理论驱动研究”和“数据符合模型”,推崇单参数单维度的测量模型能最大限度地减少额外因素对真实测量目的的影响和干扰,从而保证测量的客观性和准确性。Rasch模型关注测量目标与测量工具的对应关系,它的“简单”特性有助于研究者更准确地评估和解释被测目标与测量工具间的适配性,且在将非线性数据转化为等距数据时具有天然的优势。

1 引言

自二十世纪六、七十年代以来,项目反应理论(Item response theory,IRT)逐渐被越来越多的人关注、研究和应用。针对不同研究情形的IRT模型被研究者陆续开发出来,从两分的(dichotomous IRT)到多级计分的(Polytomous IRT)、从单参数的(One-parameter IRT)到多参数的(multi-parameter IRT)、再从单维的(Unidimensional IRT)到多维的(Multidimensional IRT)。现在,IRT被广泛应用于量表和测试开发,题目选择及质量监控,个体和群体的测评、对比及诊断,等值,计算机自适应测试,认知诊断等研究和工作中(高一珠等,2017;毛秀珍,辛涛,2015;Wuetal.,2016)。

如今,IRT的研究者们往往取长补短,采用多元化的方法力求更好地进行解释和推断。然而,回顾IRT发展历史可以发现,IRT存在两个流派,分别是以Rasch(1960)提出的Rasch模型为研究导向的非典型项目反应理a论流派和以Birnbaum(1968)提出的三参数Logistic模型为研究导向的典型项目反应理论流派。前者强调单参数单维度的研究范式(晏子,2010;Bond&Fox,2015),而后者则偏重多参数多维度的研究发展方向(Hambleton&Swaminathan,2013;Reckase,2009)。沿着不同的发展方向,在Frederic Mather Lord、Ronald K. Hambleton等人出色的研究工作基础上,多参数多维度IRT流派的新模型不断涌现,代表性的有Samejima(1969)提出的等级反应模型(Graded response model, GRM)、Muraki(1992)提出的拓广分部评分模型(Generalized partial credit model, GPCM)、McKinley和Reckase(1982)提出的Logistic多维模型(Logistic multidimensional model)等。同样,Rasch模型在David Andrich、Benjamin Drake Wright、John Michael Linacre等拥护者的杰出工作中也不断发展。为适应不同类型的数据和研究情形,Andersen(1977)和Andrich(1978)开发了评分量表模型(Rasch rating-scale model,RSM),Wright和Masters(1982)开发了分部评分模型(Partial credit model,PCM)。

通常,在实际研究和应用IRT前,首要工作是明确数据类型、研究维度以及选择适合的分析模型。然而,面对各式各样的IRT模型,一些研究者常常困惑于如何选择,另有一部分研究者可能仅仅基于参数和维度数量,武断地认为多参数多维度的IRT模型要优于单参数单维度的Rasch模型。那么,到底应该如何选择合适的IRT模型?相比单参数单维度的Rasch模型,多参数多维度IRT模型的表现会更优吗?本文将分别从模型的参数数量和维度数量两个角度出发,对比和阐述两者的不同,以求给出答案。

2 单参数Rasch模型vs.多参数Logistic模型

2.1 两类模型的数学对比

1960年,丹麦心理测量学家Rasch(1960)首次提出了Rasch模型。几年后,美国统计学家Birnbaum(1968)提出了包含难度(b,difficulty)、区分度(a,discrimination)和猜测度(g,guess)三个参数的3-ParameterLogistic模型(3PL)。在3PL模型中,若将猜测度参数g设置为0,即为2PL模型;若将区分度参数a设置为1.7、猜测度参数g设置为0,即为1PL模型。1981年,Barton和Lord(1981)将粗心因素(u, careless)纳入其中,在3PL模型的基础上提出了4PL模型。相比各类不同的项目反应理论模型,Rasch模型的数学表达式是最简单的,为:

P (X=1 | B, D) = exp(B-D) / (1+ exp(B-D))  (1)

公式(1)表明:能力为B的个体正确回答难度为D的项目(item)的概率是P,其中X是表示项目成功或失败的随机变量,X=1表示项目成功,X=0表示项目失败。Rasch模型假设一个事件的成功概率仅受到个体能力和项目难度的影响,也就是说一个人正确回答一个题目的概率只取决于两个方面:被测目标(objects)和测量工具(instruments)。而多参数Logistic模型的数学表达式为:

P (X=1 | θ, b) =g+(u-g)* exp[ a(θ-b) ] / (1+ exp[ a(θ-b) ])  (2)

不同参数Logistic模型的公式取决于公式(2)中区分度参数a、猜测度参数g和粗心参数u的设定。区分度参数被等同于项目特征曲线(Item characteristic curve, ICC)的中心斜率;猜测度参数为ICC的下渐近线,决定了项目特征的下限;粗心参数为ICC的上渐近线,决定了项目特征的上限。需要说明的是,虽然意义上相同,但在Logistic模型中,研究者们通常用θ表示能力参数,用b表示难度参数;而在Rasch模型中则习惯用B表示能力参数,D表示难度参数。

Rasch模型与单参数Logistic模型(1PL)在数学上主要有两点区别。第一,也是有趣一点,Rasch模型服从Logistic分布,是一种logit模型;而单参数Logistic模型却服从正态分布,是一种probit模型。第二,对于一组相同的项目参数值来说,Normal Ogive模型的ICC曲线会比Logistic模型更陡峭;为了弥补这种差异,Birnbaum(1968)建议将logistic模型中的指数乘以1.7,以使得两个模型分布更加接近。故1PL模型的数学表达为:

P (X=1 | θ, b) = exp[ 1.7*(θ-b) ] / (1+ exp[ 1.7* (θ-b) ])  (3)

基于公式(3),许多研究者将1.7视作1PL模型的区分度参数a,而将1作为Rasch模型的区分度参数,以示两者的区别。事实上,在Rasch模型中,a=1的意义在于它要求所有项目具有等区分度的性质。

数学式往往是一个测量模型最抽象和最直接的表达,它源于模型研究者的理念,同时也反映了该理念最深刻的本质。从数学表达式来看,两者均为概率模型。多参数Logistic模型“充分”,通过设定多个参数以达到更好拟合数据和更充分解释数据的目标,但参数间关系较复杂,容易受到额外因素的影响和制约。而Rasch模型“简单”,围绕能力参数与难度参数两者的关系而建立,两个参数相互对应、相互制约,不易受到其他因素的影响。

2.2 两类模型的区分度指标

在4PL模型中,作为上、下渐近线的粗心参数u和猜测度参数g被强制施加于每个人,但并非所有人都会存在粗心和猜测的问题。因此很多情况下,3PL和4PL模型与实际情形并不相符。相比之下,2PL模型更加符合实际,也是应用更为广泛的Logistic模型。在2PL模型中,区分度a值越大,表明区分度越好(罗照盛,2012;Reckase,2009;Zhang&Stone,2008)。但a值与能力参数θ和难度参数b相互影响和制约,这导致样本的能力分布、测试的难度分布和质量将直接影响到模型中各个参数的估计精度(杜文久等,2013)。例如,当样本群体的能力存在两极分化时,会导致对a值的估计偏高,而a值的失真反过来又会影响能力参数和难度参数估计的准确性。另一个问题是,在多参数IRT模型中,区分度值具有权重作用,测试者答对高区分度的题目要比答对低区分度的题目获得更高的能力值。然而,由于a值估计的不稳定性以及其本身与能力相关性低的性质,以a值作为权重估计测试者能力的合理性一直备受争议。

虽然2PL模型仅比Rasch模型多了一个区分度参数,但两者却有本质的不同。与2PL模型不同,Rasch模型要求所有项目都应该等区分度。如果项目具有不同的区分度,要么说明测试可能受到了额外因素的影响,要么指示某些项目对不同的样本存在偏见(Wright,1992)。Rasch模型无法直接求出项目的区分度值,但对区分度参数进行单独估计却是一个明智的做法。一种算法是使用Rasch模型求出的能力值替代原始总分来求相关区分度,这可以避免缺失值对区分度计算的影响。此外,Wright和Masters(1982)提出,可通过将a=1设定为初始值,求得相关数据对数似然的一阶导数和二阶导数,再基于Newton-Raphson迭代来求区分度a的最大似然估计值,该值也用于判断数据是否拟合Rasch模型。

在Rasch模型中,另一个与项目区分度高度相关的值是INFIT(Weighted Mean-Square)拟合值(Wright&Linacre,1994)。当它为1时,表明数据完全与Rasch模型拟合,但INFIT值的分布受到样本量的影响,因此它的合理范围应该依据测试的样本量来确定(Smithetal.,1998;Wuetal.,2016)。当INFIT拟合不佳时,INFIT值随项目测试误差的增加而增加;而项目的测试效率不足则会导致INFIT值减小,比如,过难或过易的项目所能提供的测试信息有限,这会导致INFIT值偏低。Wu等(2016)研究发现,2PL模型中的区分度值和Rasch模型中的INFIT值成负相关。Wright(1992)在一项研究中将同一批数据的INFIT值(0.8~1.3范围内)和在3PL模型中的区分度值(.5~2范围内)同时进行自然对数转化后发现两者的相关为-.82,3PL模型的区分度值约为INFIT值的-3.3倍。此外,INFIT值是由项目作答方差所加权的标准化残差的平方计算而得,而残差往往对ICC的斜率有着显著影响。从这个角度看,INFIT值也与多参数Logistic模型中的区分度参数性质相似。然而,增加区分度参数的Logistic模型虽然提升了模型对数据的拟合度,但随着参数量的增加,对能力参数和难度参数的估计将受到更多额外因素的影响,这无疑也增加了精确估计参数的难度。

2.3 单参数Rasch模型的优越性

多参数Logistic模型是一种强调模型拟合数据的参数估计方式,这导致它的各类参数估计具有严重的样本依赖性。因此,为了稳定参数估计,使用多参数Logistic模型需要更多的样本量。Downing(2003)认为,至少需要200个样本才能保证多参数Logistic模型测量的精确性;并且,随着项目计分类别数量的增加,多参数Logistic模型对样本量的需求也会相应增大。Reeve和Fayers(2005)认为,两参数的GRM参数估计至少需要500个样本。相比之下,两级计分和多级计分的Rasch模型的最低样本要求量分别仅为30和50(Wright&Stone,1979)。可见,对样本量低要求的特征是Rasch模型的优势之一。

除了能力参数和难度参数外,Rasch模型拒绝将其他参数纳入模型中,它将猜测度、粗心等视作由样本不可靠性所产生的误差因素,认为区分度的不同源于不合理测试设计和额外的误差因素。正如Rasch模型的数学表达式所示,Rasch模型中的难度参数与能力参数呈相互对称(symmetry),两者既是相对的、又有相同的地位,可以相互替换、相互对照。这使得Rasch模型的参数估计在数学上具有可分离性(Separability),即题目的难度参数估计并不需要依赖于题目的难度分布,个体的能力参数估计也不依赖于被测群体的能力分布。因为即使两个测量中的样本不同、原始分数的分布不同、每个题目答对率也不同,个体与题目之间的差异也会始终保持相对恒定,这体现了Rasch模型的参数估计具有一定的客观性(objectivity)(Bond&Fox,2015;Wright&Panchapakesan,1969)。

多参数Logistic模型和Rasch模型在研究理念上的本质区别在于:前者是数据驱动的模型,通过增加模型参数的方式力求达到“模型适应数据”的目的,而后者则强调理论驱动模型,要求“数据适应模型”。在一些研究情形下,多参数Logistic模型通过更多的参数来实现模型拟合数据的做法更贴近现实,对研究者也更具吸引力。但是,如前所述,它的各项参数具有很强的样本依赖性,这意味着分析容易受到有偏项目或样本的影响,导致结果不稳定且仅有局部的解释性。相比之下,Rasch模型是一个“完美的模型”,对数据要求严苛,强调数据必须要符合模型的先验要求,即数据来源是可信且有效的,数据内部属性没有受到其他外部属性的干扰(Andrich,1988,2004)。在实际研究和应用中,数据要满足这样的严苛要求很困难,所以既需要前期扎实的理论基础,又需要后期能不断地对数据进行优化以提升模型的拟合度。但也正因为如此,Rasch模型的参数估计才能体现测量的客观性(Objective measurement);当数据符合Rasch模型的要求时,其结果将更具稳定性、精确性和推广性。Wu等人(2016)认为,当研究者的目的是构建或修订测量工具时,或研究者可以借助数据分析对整个测试的项目进行调整或优化时,Rasch模型是更好的选择。而在处理那些无法优化的数据时,多参数Logistic模型可以更好地发挥“模型拟合数据”的优势。但是,通过数学方式来提升数据拟合度的做法是否恰当本身就有待商榷。笔者认为,信效度好的数据或测量工具往往源自于研究前期扎实的理论基础和对测试项目不断地调改和优化,而这正是Rasch模型所坚守的测量理念。

3 单维度Rasch模型vs.多维度IRT模型

3.1 多维IRT测量模型发展简介

面对复杂多维的世界,研究者们一直在试图开发更加理想的多维性的理论和模型。Vander Linden(2016)根据不同的特征将已有的MIRT模型分为三类,分别是:基于项目特征参数集合的线性函数的MIRT模型、基于处理项目反应与个体潜在特质具有非线性关系的正态肩型MIRT模型和基于关注项目特征与个体维度特质关系的累积Logistic函数的MIRT模型。其中后两类都强调因子分析(Factor analysis)与多参数项目反应理论的结合(康春花,辛涛,2010;Reckase,2009),Raykov和Marcoulides(2011)甚至认为,MIRT是在分析时使用非标准化观测变量的因子分析的特殊情况。

与多参数IRT在MIRT发展过程中的得天独厚不同(比如在2PL模型中可以通过不同的项目区分度特征来表现测试的多维性),Rasch模型在多维化的道路上走得并不顺利。Georg Rasch在提出具有单维性假设的Rasch模型后很快就意识到,许多研究情形面临的会是多维性问题。不久后,Rasch(1961)基于单维度Rasch模型提出了第一个所谓的多维度Rasch模型(Multidimensional Rasch model,MRM)。然而,为了解决多维度的问题,Rasch在他的MRM中加入了过多需要预先计算的函数,使得MRM不仅不再是一个“简单的Rasch”,还是一个适用不佳的模型(Reckase,1972)。但毋庸置疑,GeorgRasch1961年提出的MRM是早期的MIRT雏形,为现今许多流行的MIRT模型开发奠定了重要的基础。Mulaik(1972)基于对Rasch的MRM改进开发出了简单版的MRM,但该模型依旧存在一些适用问题。此后,无论是Kelderman和Rijkes(1994)提出的多维度PCM,还是Adams等人(1997)通过拓广Rasch模型提出的多维RCML模型(Multidimensional random coefficients multinomial Logit model),他们都在模型中加入了权重参数,这种做法与在1PL模型中加入区分度参数得到2PL模型并无太大区别。

结论似乎是:如果希望保持Rasch模型在数学上的“简单”特性,多维的问题就难以得到解决。那么,是否真如一些研究报告所述:在面对复杂多维的研究情形时,相比Rasch模型,MIRT模型是更优的选择?

3.2 多维情形下的Rasch模型

在研究中,维度数量的定义是一个关键性步骤,它直接影响研究的方向和结果,准确且恰当的维数定义对研究的顺利开展具有重要意义。然而,维数定义不仅需要参考数学上的证明,还要求研究者对不同情形下模型维度的意义有着明确的理解并能依据具体的研究作出合适的判定。需要说明的是,单维度(Unidimensionality)并不意味着人在测试中的表现是由单一心理过程所主导。在任何测试中,人都会有各式各样的心理过程,当这些心理功能协同作用时,这个过程就应该是单维的(Bejar,1983)。

Rasch模型的拥护者认为,面对复杂的多维研究,MIRT并不足以解决问题。在一些研究情形下,通过将多维度变量分解为若干单维度变量进行分析有利于更清晰准确地解释研究变量(Bond&Fox,2015)。但也有一些研究者认为,如果项目本身是多维的或是维度间存在某种程度的相关,将多维拆分为单维是不合理的(康春花,辛涛,2010)。事实上,Rasch模型并不排斥多维的研究情形。如果数据确实存在多维性,Rasch模型的做法是基于整体数据构建一个多维性的主导维度(Dominant dimension)来进行分析(Waugh&Chapman,2005)。Linacre(1998)认为,在Rasch模型对多维数据的分析中,当出现无法解释的数据偏差(Residual variance)、项目拟合不佳(misfit)或项目间存在负相关时,可能意味着一些项目具有独特的性质而无法被融进主导维度。以OECD的PISA考试为例,Rasch分析的主导维度反映了人的“数学—阅读—科学”的复合能力,而拟合不佳的题目可能仅单纯属于数学、阅读或科学测试中的任意一个次级维度。需要注意的是,偏差性指标到底是指示数据问题还是预示着确实存在其他实质性的次级维度还需要进一步检验。通过前期先导性的因子分析可以帮助研究者初步探明数据的维数情况(Bandalos&Finney,2018;Tennant&Pallant,2006)。在Rasch分析后,异常的拟合值有助于研究者发现可能属于其他次级维度的项目(单昕彤等,2014;Christensenetal.,2017;Wright,1992)。此外,通过对数据的残差(residuals)进行主成分分析(Principal component analysis)可以进一步探查是否存在其他次级维度(Chou&Wang,2010;Hagell,2014;Smith,2002;Wright,1996)。如果综合多项分析结果证明确实存在其他实质性的次级维度,还需要基于研究目的确认到底有没有必要进行多维分析(Linacre,2009)。很多时候,在对复杂问题的研究中,对不同维度的针对性分析要比综合性研究更有价值。

总的来说,在多维性的研究中,MIRT是从整体的角度关注维度间的分离与关系,重视维度与维度、维度与被测群体间的交互作用对参数估计的影响。而Rasch模型在处理多维数据时另辟蹊径:一方面,它关注由多维度融合产生的主导维度的解释力,同时也重视分析偏差性指标是否预示着次级维度的存在;另一方面,Rasch模型强调每次测量(measurement)都只针对一个变量或特征,要求剔除数据中的非单维项目以维持原有测量的单维性,其目的在于保证测量的客观性和准确性(Bond & Fox,2015)。Smith(1996)研究发现,当维度间存在高相关或仅有一个主导因子时,Rasch模型是更好的选择;若项目间无相关或是低相关,MIRT模型则是更好的选择。Wright(1997)研究发现,在一个多维度量表中,如果不同维度间存在负相关,研究结果很可能会由于负相关维度间的相互损耗导致偏差。此时,应该将多维度进行单维拆分,然后使用Rasch模型对各个维度进行单独分析。从具体的研究情形来看,当研究目的是探讨整个测试的综合表现和不同维度变量间的关系时,MIRT模型更加适合;但若要进行单项分析或报告,Rasch模型的分析结果将更具客观性和准确性。

4 Rasch模型的意义和启示

毫无疑问,多参数多维度的IRT模型有其更适用的情形和重要的价值。但相比之下,笔者认为,Rasch模型所传递的理念更加值得珍视。几千年前,道家学派创始人老子就提出“大道至简”。在数学中,“简单”所带来的收益随处可见(吴军,2014;Aigner&Ziegler,2010),而Rasch模型正体现了数学的简单之美。仅有难度参数和能力参数的Rasch模型在一定程度上脱离了样本的依赖性,在参数估计相对称的数学结构下,Rasch模型可以将由项目反应构成的非线性数据矩阵(nominal data or ordinal data matrix)转化成两列反映能力参数和难度参数的具有对称性质的等距数据(interval data)。Rasch模型的这些特性使得它在实际应用中有两大优势:第一,Rasch模型最核心的优势是它可以将非线性数据转化为具有等距意义的数据,即基于低等级的数据(nominal or ordinal data)构建更高等级的线性测量(linear measurement),从而提供更多的信息量,使测量更具准确性和客观性(Bond & Fox,2015; Fischer & Molenaar,2012)。第二,Rasch模型将人(persons)与项目(items)置于同等的位置;在构建或检验测试工具的过程中,这有助于研究者更准确地评估和解释被测目标与测量工具间的适配性(Lunz,2010)。此外,Rasch模型的“简单”性质使其在参数估计或数据转换过程中更少受到额外因素的影响,这对提升测量的信效度具有重要意义。

过去,研究者们强调理论驱动(theory driving)研究,而数据驱动(data driving)则是一种有争议的研究方式,它被认为可能预示着研究前期不扎实的理论综述或不严谨的研究设计。然而,随着技术的发展和数据量的激增,人们可以从数据中获得更多的信息,数据驱动也被视为了理所当然(Provost&Fawcett,2013;Mazzocchi,2015)。但笔者认为,仅仅依靠数据驱动是相当盲目的做法。如果前期缺乏严谨而全面的调研或思考,在庞大的数据信息流前,要么是随波逐流,要么很容易忽视在眼前被冲走的钻石。相比现在层出不穷的IRT模型,Rasch模型俨然是一位老人,但它基于“理论驱动研究”与“数据符合模型”的理念却依旧历久弥新。拓广来看,这种理念体现在两个方面:第一,强调研究前期依据研究目的进行扎实的理论综述,再通过丰富且完善的理论综述优化研究目的,使其更加明确,更具有可行性;第二,强调研究者应该充分了解所采用的研究方法的基本原理和适用情形,并根据研究目的来选择适合的研究方法和收集数据。

考虑到人类心理特质的复杂性和社会现象的多元性,任何形式的估计都是近似的和概率化的。Reckase(2009)认为,MIRT是一个理想化的模型或理论,它只能对人的能力参数和项目的难度参数给出近似的估计。Rasch模型同样也是如此,它代表了一类“完美”的模型或理念。对研究者来说,重要的是依据具体的研究情形和数据类型来选择适合的模型。正如Amrhein等(2019)呼吁研究者们不要依据某个P值将结果进行完全两分化的界定一样,关键不在于方法的选择,而在于如何基于具体的研究情形正确地使用方法和进行解释。与此同时,考虑到真实研究中存在的复杂性和偶然性,采用多种方法对结果进行对比和交叉验证(Cross-validation)也十分必要。

最后,以John Michael Linacre的一段话作为本文的结尾,他说:“Rasch测量期望能如同物理学一样,在社会科学领域,把一个多维的世界分解成不同的一维变量,并实现物理科学已经证明的作用和价值。”

 

参考文献

杜文久, 周娟, 李洪波. (2013). 二参数逻辑斯蒂模型项目参数的估计精度. 心理学报, 45(10), 1179–1186.

高一珠, 陈孚, 辛涛, 詹沛达, 姜宇. (2017). 心理测量学模型在学习进阶中的应用: 理论、途径和突破. 心理科学进展, 25(9), 1623–1630.

康春花, 辛涛. (2010). 测验理论的新发展: 多维项目反应理论. 心理科学进展, 18(3), 530–536.

罗照盛. (2012). 项目反应理论基础. 北京: 北京师范大学出版社.

毛秀珍, 辛涛. (2015). 多维计算机化自适应测验: 模型、技术和方法. 心理科学进展, 23(5), 907–918.

单昕彤, 谭辉晔, 刘永, 吴方文, 涂冬波. (2014). 项目反应理论中模型-资料拟合检验常用统计量. 心理科学进展, 22(8), 1350–1362.

汪文义, 宋丽红, 丁树良. (2016). 复杂决策规则下MIRT的分类准确性和分类一致性. 心理学报, 48(12), 1612–1624.

王昭, 郭庆科. (2016). 个人拟合指标在Likert型人格测验中的应用. 中国临床心理学杂志, 24(3), 470–474.

吴军. (2014). 数学之美 (第2版). 北京: 人民邮电出版社.

Adams, R. J., Wilson, M., & Wang, W. C. (1997). The multidimensional random coefficients multinomial Logit model. Applied Psychological Measurement, 21(1), 1–23.

Aigner, M., & Ziegler, G. M. (2010). Proofs from the book (4th ed.). Berlin: Springer.

Amrhein, V., Greenland, S., & McShane, B. (2019). Scientists rise up against statistical significance. Nature, 567(7748), 305–307.

Andersen, E. B. (1977). Sufficient statistics and latent trait models. Psychometrika, 42(1), 69–81.

Andrich, D. (1978). Application of a psychometric rating model to ordered categories which are scored with successive integers. Applied Psychological Measurement, 2(4), 581–594.

Andrich, D. (1988). Rasch models for measurement. Newbury Park, CA: Sage Publications.

Andrich, D. (2004). Controversy and the Rasch model: A characteristic of incompatible paradigms?. Medical Care, 42(1), I–7.

Bandalos, D. L., & Finney, S. J. (2018). Factor analysis: Exploratory and confirmatory. In G. R. Hancock, L. M. Stapleton, & R. O. Mueller (Eds.), The reviewer’s guide to quantitative methods in the social sciences (pp. 110–134). New York: Routledge.

Barton, M. A., & Lord, F. M. (1981). An upper asymptote for the three-parameter logistic item response model. In Research Bulletin, 81–20. Princeton, NJ: Educational Testing Service.

Bejar, I. I. (1983). Achievement testing: Recent advances (Vol. 36). Beverly Hills, CA: SAGE Publications.

Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee’s ability. In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores. Reading, MA: Addison-Wesley.

Bond, T. G., & Fox, C. M. (2015). Applying the Rasch model: Fundamental measurement in the human sciences (3rd ed.). New York: Routledge.

Chou, Y. T., & Wang, W. C. (2010). Checking dimensionality in item response models with principal component analysis on standardized residuals. Educational and Psychological Measurement, 70(5), 717–731.

Christensen, K. B., Makransky, G., & Horton, M. (2017). Critical values for Yen’s Q3: Identification of local dependence in the Rasch model using residual correlations. Applied Psychological Measurement, 41(3), 178–194.

Downing, S. M. (2003). Item response theory: Applications of modern test theory in medical education. Medical Education, 37(8), 739–745.

Fischer, G. H., & Molenaar, I. W. (2012). Rasch models: Foundations, recent developments, and applications. New York: Springer.

Hagell, P. (2014). Testing rating scale unidimensionality using the principal component analysis (PCA)/t-test protocol with the Rasch model: The primacy of theory over statistics. Open Journal of Statistics, 4(6), 456–465.

Hambleton, R. K., & Swaminathan, H. (2013). Item response theory: Principles and applications. Netherlands: Springer.

Keeves, J. P. (1997). Educational research, methodology and measurement: An international handbook (2nd ed.). Oxford: Elsevier Science.

Kelderman, H., & Rijkes, C. P. M. (1994). Loglinear multidimensional IRT models for polytomously scored items. Psychometrika, 59(2), 149–176.

Linacre, J. M. (1998). Detecting multidimensionality: Which residual data-type works best? Journal of Outcome Measurement, 2(3), 266–283.

Linacre, J. M. (2009). Unidimensional models in a multidimensional world. Rasch Measurement Transactions, 23(2), 1209.

Lunz, M. E. (2010). Using the very useful Wright map. Measurement Research Associates Test Insights.

Mazzocchi, F. (2015). Could Big Data be the end of theory in science? A few remarks on the epistemology of data‐driven science. EMBO Reports, 16(10), 1250–1255.

McKinley, R. L., & Reckase, M. D. (1982). The use of the general Rasch model with multidimensional item response data (Research Report ONR 82–1). American College Testing, Iowa City, IA.

Mulaik, S. A. (1972). A mathematical investigation of some multidimensional Rasch models for psychological tests. Annual Meeting of the Psychometric Society, Princeton, NJ.

Muraki, E. (1992). A generalized partial credit model: Application of an EM algorithm. ETS Research Report Series, 1992(1), i–30.

Provost, F., & Fawcett, T. (2013). Data science and its relationship to big data and data-driven decision making. Big Data, 1(1), 51–59.

Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Denmark: Danmarks Paedogogiske Institute.

Rasch, G. (1961). On general laws and the meaning of measurement in psychology. In J. Neyman (Ed.), Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability (Vol. 4, pp. 321–333). California: Univ of California Press.

Raykov, T., & Marcoulides, G. A. (2011). Introduction to psychometric theory. New York: Routledge.

Reckase, M. D. (1972). Development and application of a multivariate logistic latent trait model. Unpublished doctoral dissertation of Syracuse University, Syracuse, NY.

Reckase, M. D. (2009). Multidimensional item response theory. New York: Springer.

Reeve, B., & Fayers, P. M. (2005). Applying item response theory modelling for evaluating questionnaire item and scale properties. In P. M. Fayers & R. Hays (Eds.), Assessing quality of life in clinical trials (pp. 55–73). Oxford: Oxford University Press.

Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometrika monograph supplement. Richmond: Psychometric Society.

Smith, J. E. (2002). Detecting and evaluating the impact of multidimensionality using item fit statistics and principal component analysis of residuals. Journal of Applied Measurement, 3(2), 205–231.

Smith, R. M. (1996). A comparison of methods for determining dimensionality in Rasch measurement. Structural Equation Modeling: A Multidisciplinary Journal, 3(1), 25–40.

Smith, R. M., Schumacker, R. E., & Bush, M. J. (1998). Using item mean squares to evaluate fit to the Rasch model. Journal of Outcome Measurement, 2(1), 66–78.

Tennant A., & Pallant J. F. (2006). Unidimensionality matters! (A tale of two smiths?). Rasch Measurement Transactions, 20(1), 1048–1051.

van der Linden, W. J. (2016). Handbook of item response theory, volume one: Models. London: CRC Press.

Waugh, R. F., & Chapman, E. S. (2005). An analysis of dimensionality using factor analysis (true-score theory) and Rasch measurement: What is the difference? Which method is better?. Journal of Applied Measurement, 6(1), 80–99.

Wright, B. D., & Panchapakesan, N. (1969). A procedure for sample-free item analysis. Educational and Psychological Measurement, 29(1), 23–48.

Wright, B. D., & Stone, M. H. (1979). Best test design. Chicago, USA: MESA Press.

Wright, B. D., & Masters, G. N. (1982). Rating scale analysis. Chicago, IL: MESA Press.

Wright, B. D. (1992). IRT in the 1990s: Which models work best? 3PL or Rasch?. Rasch Measurement Transactions, 6(1), 196–200.

Wright, B. D., & Linacre, J. M. (1994). Reasonable mean-square fit values. Rasch Measurement Transactions, 8(3), 370.

Wright, B. D. (1996). Comparing Rasch measurement and factor analysis. Structural Equation Modeling: A Multidisciplinary Journal, 3(1), 3–24.

Wright, B. D. (1997). Managing Multidimensionality. Rasch Measurement Transactions, 11(1), 540.

Wu, M., Tam, H. P., & Jen, T. H. (2016). Educational measurement for applied researchers: Theory into practice. Singapore: Springer.

Zhang, B., & Stone, C. A. (2008). Evaluating item fit for multidimensional item response models. Educational and Psychological Measurement, 68(2), 181–196.

发表评论

您的电子邮箱地址不会被公开。