测试标准误(SEM)是测试精度的量化指标之一,与测试信度(test reliability)密切相关,两者关系的计算公式有:SEM = sqrt(( 1 – test reliability ))。
通常,在一个测试中,标准误(SE)用于衡量单个题目的精度,测试标准误(SEM)则被用于衡量整个测试的精度。若一个测试中只有一道题,则标准误(SE)等于测试标准误(SEM)。
由于标准误(SE)是不可累加的,为了弥补此缺点和更好发挥标准误(SE)的作用,Fisher提出了信息量(Information)的概念。可以说,信息量(Information)是标准误(SE)的另一种表现形式。
在IRT中,信息量(Information,I)、标准误(Standard error, SE)、测试标准误(The standard error of the estimated measure, SEM)有如下数学关系:
Item Information(题目信息量) = 1 / SE^2 = P * (1-P), (公式一)
Test Information(测试信息量) = sum(1 / SE^2) = 1 / SEM^2 = sum [P * (1-P)] , (公式二)
SEM(测试标准误) = 1 / sqrt(sum( P * (1-P))) = 1 / sqrt(( N * P * (1-P))), (公式三)
N = 1 / ( SEM^2 * P * (1-P))), (公式四)
其中N为考试的题目数量;P为测试者在某道题目的答对概率。
以一个共有40题的两分考试(dichotomous test)为例:
*两分考试指该考试中的所有题目都是0,1计分的题,即在两分考试中,任意一道题,答对计1分,答错计0分。
假如其中某个题目的答对概率P是0.5,那么该题目的信息量为0.25(根据上述公式一计算所得,0.5 * (1-0.5) =0.25),该题目的标准误为2(注意!此为IRT下的计算结果,项目反应理论中的标准误与经典测量理论中的标准误成反比,即在CTT中,该题的标准误是0.5 = 1/2)。
假如该考试所有题目的答对概率都是0.5,那么该考试的测试标准误(SEM)为:
SEM = 1 / sqrt(sum(P*(1-P))) = 1/sqrt(40*(0.5*(1-0.5)) = 1/ sqrt(40*0.25) ≈ 0.316。
整个考试的信息量(Test Information)为:
Test Information = 1 / square(SEM) ≈ 10 ≈ sum(P*(1-P)) = 40*(0.5*(1-0.5) = 10。
即:一份40道题的两分考试,在IRT分析中,理论上(P=0.5)的测试标准误大概是0.316 (注意!若在CTT中,该考试的标准误是3.165 ≈ 1/0.316)。
由于这样的特性,在自适应测验中,常常以测试标准误或测试信息量来作为确定或控制自适应考试中题量的目的。例如:在设定考试的平均答对概率是0.5,测试标准误控制在0.5,根据公式四计算得,共需要16道题目。下表为根据公式四计算得出的题目数量、测试标准误、考试平均答对概率对应表(*测试标准误可用SEM表示,也可用S.E.表示)。
您好,想请教下OUTFIT 这个指标是怎么计算的呀,看您的介绍都写的很清晰
OUTFIT = Sum(z)/N
z= (X-E)²/ σ²
其中X是观测值,也就是一个测试者对一个题目的作答得分。E是基于Rasch参数估计的期望值,E是一个概率。
σ² 是期望值E的方差,如果使用Rasch分析两级计分题目,σ² = E *(1-E)