第 7 章 CTT与IRT比较

Classical Test Theory (CTT) 与题目反应理论Item Response Theory (IRT)

进行一个测验的主要目的,是要了解学生在所测验领域的能力程度。 此外,我们还会想知道所使用的测验与题目的相关特征,例如想了解题目的难度,以及该测验是否能够区分学生的能力程度,即测验的信度以及题目的鉴别度。CTT 与 IRT 两者都可以提这些信息。

7.1 CTT

CTT 测量学生能力的方式是通过学生的得分或者是在测验中的答对率。

  • CTT 题目难度
    CTT 理论下,题目难度是指学生答对某一题的人数百分比。

  • CTT 题本信度
    CTT 题本信度反映出我们可以信任从测验成绩将学生能力来进行排序到什么程度。 如果一个测验有两个平行的题本,则学生在两个平行题本得分之间的线性相关系数,可视为是该测验的信度系数。其中平行题本是指两个测试中的题目所测的概念与难度非常接近。

  • CTT 题目识别度(点二系列相关系数)
    CTT框架下,每一题的鉴别度是指学生在该题得分与学生在这整个测验的总得分之间的线性相关系数。

鉴别度是非常重要的指标,可用来评估一个题目的质量。 如果学生乱猜某题答案,则当我们计算学生在该题的得分与他们在这整个测验的得分之间的线性相关系数时,该相关系数会非常接近0。 例如,一个题目的鉴别度如果很高,那么高能力的学生在该题普遍答对得分,而低能力的学生在该题普遍答错不得分,因此学生在该题的表现与在测验的总得分有很强的关系。

在古典测验理论的架构之下,一个题目或测验的统计量是建立在测验总分这个概念之上,因此要诠释该统计量,必须相同测验之下来进行。 如果一群学生当中有些人作答一组题目,而另外一群学生作答另外一组的题目,他们的总得分是无法比较,这个时候不应该采用 CTT 的理论来进行分析。

7.2 IRT

IRT 的能力值是建立在一个称为’ logit’ 的量尺上,logit是 “log-odds-unit” 或是 “logistic unit” 的简称,其中 “log-odds-unit”是指用答对率的对数作为单位。 一般测试的答对率是从0%到100%,所以logits的取值范围是从\(+\infty\)\(-\infty\)

IRT 框架下,学生的能力取值范围没有任何限制,可以从\(+\infty\)\(-\infty\),可解决在CTT框架下的一个问题,也就是一个测验会有所谓的地板效应与天花板效应。

  • IRT 题目难度
    在IRT中,题目难度与学生的能力是放在同一个logit 量尺上,题目的难度可以视为是一种能力值,具有该能力值的学生有0.5的机率答对该题。 换句话说,如果某一题的难度为 \(\delta\),则所有具有能力值为 \(\delta\)的学生当中,会有50%的学生答对该题。 IRT将题目难度定义在能力量尺上,因此可以由难度直接推估一个学生答对某一题的概率。 相较之下,在CTT中题目的难度与学生的能力值并不能够直接进行比较。

  • IRT 题本信度
    定义与CTT类似,但是用以logit为单位的学生的能力值来取代学生答对的题数或得分。

  • IRT 题目鉴别度
    定义与CTT类似,某一题的鉴别度可以通过用残差(residual-based)估算题目拟合度的方式进行估算,也可以用以logit为单位的学生能力值与学生在该题得分之间的相关系数来进行估计。

  • IRT 所估计的参数不依赖于特定的测验
    在 IRT框架下,即使不同的学生作答不同的题目,仍然可以估计出学生的能力,因为IRT 是通过学生作答题目的难度来估计学生能力值。

如果学生都写同样的测验题目,则用 CTT 与 IRT 来进行分析的差异不大。 然而, IRT 分析的结果比较具有可推广性。 再者, IRT 由于学生能力值与题目难度是放在同一个量尺上,因此 IRT 容许我们对每一位学生的技能做更适当的描述,例如我们可以说这位学生很可能可以答对这个难度的题目,但可能不能够答对另一个难度的题目。

7.3 R语言CTT

TAM包

library(TAM)   
data(data.sim.rasch) 
resp <- data.sim.rasch 

scores <- apply(resp,1,sum) # 计算测验得分
itemscores <- apply(resp,2,mean) # 计算题目的平均分
cor(scores,resp[,1]) # 计算第一题的鉴别度
[1] 0.3995519
cor(scores-resp[,1],resp[,1]) #更好的計算方式:先扣除第一題得分,再求相关系数
[1] 0.3600202
disc <- apply(resp,2,function(x){cor(scores-x,x)})
# 计算所有题目鉴别度

#用 CTT 包完成分析
library(CTT)
IA <- itemAnalysis(resp)
head(IA$itemReport)
  itemName itemMean      pBis       bis alphaIfDeleted
1       I1   0.8270 0.3600202 0.5321515      0.9001631
2       I2   0.8145 0.3367074 0.4894921      0.9004347
3       I3   0.8000 0.3601272 0.5145375      0.9001545
4       I4   0.7860 0.3342130 0.4703845      0.9004803
5       I5   0.7725 0.3786966 0.5260482      0.8999209
6       I6   0.7710 0.3716843 0.5155954      0.9000111
IA$alpha  # Cronbach's alpha 的值。
[1] 0.9017694