在IRT中,有很多不同的多级模型(Polytomous Models),多级模型指适用于由多种不同计分类别的项目(item)组成的量表或测试的参数计算模型。
应用广泛的多级模型有:Geoff Masters和Wright(1982)开发的分部评分模型(Partial Credit Rasch Model,PCM),Andersen(1977)和David Andrich(1978)开发的评分量表模型(Rating Scale Model,RSM),Samejima(1969)提出的等级响应模型(Graded Response Model,GRM)和Muraki(1992)提出的拓广分部评分模型(Generalized Partial Credit Model,GPCM)。
在分部评分模型(PCM)中,项目(item)间可以具有不同的评分结构,任意一个项目(item)在其不同类别的计分结构上都具有其独特的性质。测试者(person)的作答在完全正确与完全错误之间可以包含一个或多个中间水平的成功。PCM的数学表达式如等式一:
在等式一中,P{𝑋𝑛𝑖 = x∈{0,1,2…𝑚𝑖}} 表示个体n在回答项目i时得X分的概率,𝑚𝑖 表示项目i的最高分为m,θn 表示个体n的能力值,𝛿𝑖𝑘 表示项目i在第k个计分类别上的难度。其中,项目i的计分类别共有m+1类,𝛿𝑖𝑘 有k个𝛿值,且k=m。在PCM中,𝛿𝑖𝑘 被称为位置参数或类别参数(Category Parameter)。𝛿𝑖𝑘 是X = k的概率曲线与X=k-1的概率曲线的交点。数学上的意义是:在𝛿𝑖𝑘 值上,测试者得 k分和得k-1分的概率是相同的。
需要注意的是,PCM要求每个项目(item)的各个评分类别上作答(response)数量不能过少,每个评分类别至少需要10个以上的作答(response)。因为一旦某个评分类别的作答过少或是缺失,将会扭曲模型结构,最常见的扭曲情形是:低评分类别的𝛿值要大于高类别的𝛿值,即𝛿𝑖𝑘 < 𝛿𝑖𝑘-1。
在PCM中,通常会将 𝛿𝑖 作为项目i的题目难度值(Item Difficulty),𝛿𝑖 是X=0的概率曲线与X=m的概率曲线的交点,𝛿𝑖 = ∑𝛿𝑖𝑘 / k 。
若设定 𝜏𝑖𝑘 为 𝛿𝑖 与 𝛿𝑖𝑘 之间的距离,则有𝜏𝑖𝑘 = 𝛿𝑖 − 𝛿𝑖𝑘。在项目i中,𝛿𝑖𝑘 有k个𝛿值,𝜏𝑖𝑘也有k个𝜏值。在PCM中,𝜏𝑖𝑘 被称为步骤参数(Step Parameter),表示部分评分类别 𝛿𝑖𝑘 与项目难度值 𝛿𝑖 的距离,且 Σ𝜏𝑖𝑘 = 0 。
如今,多数IRT软件在进行PCM分析时主要提供的数据结果即为 𝛿𝑖𝑘 值、 𝜏𝑖𝑘 值或 𝛿𝑖 值。然而,根据上述可以发现,使用 𝛿𝑖𝑘 值或 𝛿𝑖 值作为项目的难度值在某些情形下并不太恰当,因为部分评分类别的概率曲线会随着项目和样本的变化而变化,而基于不稳定的概率曲线的交点与距离确定的 𝛿𝑖𝑘 值和 𝛿𝑖 值同样也是不稳定的。因此,使用瑟斯顿阈值(Thurstonian Thresholds)或是期望值(Expected Scores)作为项目难度可能会是更好的选择。瑟斯顿阈值(以γ表示)被定义为:有50%的概率达到或超过某个评分类别的能力值。在PCM中,每个计分类别的阈值都不相同,测试者(person)得k分的瑟斯顿阈值必定大于得k-1分的阈值。若项目i的计分类别共有m+1类,则有m个γ值。两级计分项目(dichotomous item)的难度值和瑟斯顿阈值都只有一个,两者在数值上和意义上都相同。
评分量表模型(Rating Scale Model,RSM)适用于每道题(item)都有相同的评分结构的量表(scale)或测试(test),即每个人(person)在对不同题作答时都面临同样的回答选项结构。
等式二为评分量表模型(RSM)的数学表达式,式中各类符号的意义基本与等式一相同。不同点在于,等式一中 𝛿𝑖𝑘 为项目i的某个评分类别的位置参数,步骤参数 𝜏𝑖𝑘 会随评分类别的变化而变化;而在等式二中,𝛿𝑖 为一个固定值,𝛿𝑖 = ∑𝛿𝑖𝑘 / k ,是项目i的难度参数。同样,步骤参数 𝜏𝑘 也是一个固定的值,即在RSM中,每道题(item)的步骤参数(𝜏𝑘)都是相同的。由此可见,RSM是PCM的一个特例。
等式二:
李克特量表是典型的RSM结构,即对每个题目的作答每个人都需要从“非常同意”、“同意”、“不一定”、“不同意”、“非常不同意”五类选项中进行选择。此外,为与一致的评分结构设定相符,RSM对样本(sample)和量表(scale)整体的同质性也有要求,RSM并不适用于由多个差异显著的题组(subset)构成的测试或由多个差异显著的子样本(subsample)构成的样本。
对一套有N道题(评分类别为M)的量表,PCM会估计出N*M个参数,而RSM只需要估计N+M个参数。参数多寡的优劣问题可以从两方面来看:
第一,在实际研究中,要求一套量表或测试中的每道题都完全满足具有相同的步骤参数(𝜏𝑘)是很难达到的。因此,如果想要获得更多的信息,在不违背PCM要求的情况下,使用PCM替换RSM可能会更好,更多的参数估计往往意味着能提供更多的信息。
第二,依赖于每道题的步骤参数(𝜏𝑘)都固定相等的特性,当数据中某评分类别上作答(response)数量过少或是缺乏时,相比PCM,RSM能更准确的进行参数估计。
由此可见,PCM和RSM虽各有其适用的研究情形,但两者相互补充,而具体的模型选择还需依据于研究目的和实际数据。
等级响应模型(Graded Response Model,GRM)和拓广分部评分模型(Generalized Partial Credit Model,GPCM)是另外两个广为应用的多级计分模型。需要注意的是,GPCM和GRM都是包含区分度的两参数模型,而PCM和RSM是属于单参数的Rasch流派的模型。
GPCM与PCM最显著的不同在于:它比PCM多了一个区分度参数。
GRM与PCM的不同在于:PCM中的参数估计源自两个临近计分类别的概率关系,而GRM的参数估计则依赖于项目整体多个评分类别的累积概率。也就是说,在PCM中,项目不同评分类别的 𝛿 值可能会出现无序的情形,但在GRM中,𝛿 值具有单调递增的顺序性,即评分类别越高,𝛿值越大。
END