Embora eu me sinta um pouco envergonhado por contradizer um "texto respeitado" e outro usuário de currículo, parece-me que a fórmula de Spearman-Brown não é afetada por ter itens de dificuldade diferente. Certamente, a fórmula de Spearman-Brown é geralmente derivada sob a suposição de que temos itens paralelos , o que implica (entre outras coisas) que os itens têm a mesma dificuldade. Mas acontece que essa suposição não é necessária; pode ser relaxado para permitir dificuldades desiguais, e a fórmula de Spearman-Brown ainda se mantém. Eu demonstro isso abaixo.
Lembre-se de que na teoria clássica de teste, uma medição é assumida como a soma de um componente "pontuação verdadeira" e um componente de erro , ou seja,
com e não correlacionados. A suposição de itens paralelos é que todos os itens têm as mesmas pontuações verdadeiras, diferindo apenas em seus componentes de erro, embora se presuma que tenham variância igual. Em símbolos, para qualquer par de itens e ,
XTE
X=T+E,
TEXX′T=T′var(E)=var(E′).
Vamos ver o que acontece quando relaxamos a primeira suposição, para que os itens possam diferir em suas dificuldades e, em seguida, derivar a confiabilidade de uma pontuação total do teste sob essas novas suposições. Especificamente, suponha que as pontuações verdadeiras possam diferir por uma constante aditiva, mas os erros ainda têm a mesma variação. Nos símbolos,
Quaisquer diferenças de dificuldade são capturadas pela constante aditiva. Por exemplo, se , as pontuações em tendem a ser mais altas que as pontuações em , de modo que é "mais fácil" que . Podemos chamar isso de
essencialmente paraleloT=T′+c′var(E)=var(E′).
c′>0XX′XX′itens, em analogia à suposição de "equivalência tau essencial" que relaxa o modelo equivalente tau de maneira semelhante.
Agora, para derivar a confiabilidade de uma forma de teste desses itens. Considere um teste que consiste em itens essencialmente paralelos, cuja soma dá a pontuação do teste. Confiabilidade é, por definição, a razão entre a variação verdadeira da pontuação e a variação observada da pontuação. Para a confiabilidade dos itens individuais, decorre da definição de paralelismo essencial que eles têm a mesma confiabilidade, que denotamos com , com sendo a variação verdadeira da pontuação e a variação do erro. Para a confiabilidade da pontuação total do teste, examinamos primeiro a variação da pontuação total do teste, que é
kρ=σ2T/(σ2T+σ2E)σ2Tσ2E
var(∑i=1kTi+Ei)=var(∑i=1kT+ci+Ei)=k2σ2T+kσ2E,
onde (sem subscrito) é qualquer pontuação verdadeira arbitrária na qual todas as pontuações verdadeiras dos itens podem ser alteradas através de seus termos constantes, é a variação verdadeira da pontuação e é a variação do erro. Observe que os termos constantes desaparecem! Isso é fundamental. Portanto, a confiabilidade da pontuação total do teste é
Tσ2Tσ2Ek2σ2Tk2σ2T+kσ2E=kσ2Tkσ2T+σ2X−σ2T=kρ1+(k−1)ρ,
que é apenas a fórmula clássica de Spearman-Brown, inalterada. O que isso mostra é que, mesmo ao variar a "dificuldade" dos itens, definidos como suas pontuações médias, a fórmula de Spearman-Brown ainda é válida.
O @JeremyMiles levanta alguns pontos interessantes e importantes sobre o que pode acontecer quando aumentamos a duração do teste "no mundo real", mas pelo menos de acordo com as premissas idealizadas da teoria clássica dos testes, variações na dificuldade do item não importam para a confiabilidade de um formulário de teste (em forte contraste com as suposições da moderna teoria de resposta ao item!). Essa mesma linha básica de raciocínio também é o motivo pelo qual geralmente falamos de equivalência tau essencial em vez de equivalência tau, porque a maioria dos resultados importantes se aplica ao caso mais brando em que as dificuldades dos itens (ou seja, meios) podem diferir.