测试标准误 (SEM)、置信区间 (CI) 与样本量

无论使用什么方法,在任何测试中,小样本(题量少或是人数少)都会导致三个问题:测试精度更低、偶然误差影响更大、计算模型拟合度更低

在IRT模型中,测试标准误(SEM)是衡量测验精度的主要指标之一,如果一个测试的SEM在0.3左右,说明该测试具有优秀的精度。SEM在0.5左右时,说明该测试具有良好的精度。有时,测试设计者需要预先设定SEM,然后根据设定的SEM来求取所需的样本量(测试题量和测试人数)。

SEM的计算方式可见文章《信息量 (I) 、标准误 (SE) 和 测试标准误 (SEM)》中的公式三,即:

SEM(测试标) = 1 / sqrt(sum( P * (1-P))) = 1 / sqrt(( N * P * (1-P)))

在一个考试中,一般会将题目的答对概率(又称为难度)P值控制在0.1-0.9之间,将P值代入上述公式可得:

2/sqrt(N) < SEM < 3/sqrt(N)            (公式一)

4/SEM^2 < N < 9/SEM^2            (公式二)

为了衡量数值的精度,通常会用到置信区间(Confidence interval)的概念,顾名思义,置信区间是一个数值区间,由于数值的计算会受到各种各样的因素影响,凡是落在规定内的置信区间的数值被称为可以忍受误差的数值

置信区间的公式为:

X-mean(sum(X)) = ±Z * SEM            (公式

其中,X表示一组数值中的任意一个数值,mean(sum(X))表示该组数值的平均值Z为特定分布下的特定值,通常参照正态分布当置信水平(即信任的概率)为95%时,Z≈2,置信水平为99%,Z≈2.6。

在IRT中,假如测试设计者希望最终得到的值的偏离有95%的概率在 ±1 logit内,根据公式三可得:

±SEM = 1 / 2 = ± 0.5,

假如是有99%的概率在±1 logit内,可得:

±SEM = 1 / 2.6 ≈ ± 0.385,

假如是有95%的概率在±0.5 logit内,可得:

±SEM = 1 / 4 = ± 0.25,

假如是有99%的概率在±0.5 logit内,可得:

±SEM = 1 / 5.2 ≈ ± 0.192,

由此可见,置信水平越高,偏离值区间越小,测试标准误会越低,测试越可信。

基于此原因,在IRT中,常常会根据置信水平和偏离值区间来求取样本量。

通过公式三计算可得下对应表:

 

 

发表评论

您的电子邮箱地址不会被公开。