Como a fórmula da profecia de Spearman-Brown é afetada por questões de diferentes dificuldades?

Como os resultados da fórmula de profecia de Spearman-Brown são afetados por ter perguntas de teste de diferentes dificuldades ou avaliadores que são graduadores fáceis ou difíceis. Um texto respeitado diz que o SB é afetado, mas não fornece detalhes. (Veja a citação abaixo.)

Guion, R.M (2011). Avaliação, Medição e Previsão para Decisões de Pessoal, 2ª edição. Pág. 477

"A confiabilidade pode ser aumentada através da associação de avaliadores, usando a equação de Spearman-Brown. ... Se a confiabilidade de uma única classificação for 0,50, a confiabilidade de duas, quatro ou seis classificações paralelas será de aproximadamente 0,67, 0,80 e .86, respectivamente "(Houston, Raymond, & Svec, 1991, p. 409). Gosto dessa citação porque a palavra reconhece aproximadamente que as estimativas estatísticas são declarações "na média" do que seria de esperar se tudo correr como assumido. Além disso, a palavra operativa é paralela. A média das classificações (ou o uso de Spearman-Brown) se um avaliador é, por exemplo, sistematicamente indulgente, simplesmente não se encaixa na suposição. Se os ensaios são classificados por dois avaliadores, um mais tolerante que o outro, o problema é como o de usar dois testes de múltipla escolha de dificuldade desigual (formas não paralelas). Pontuações com base em formulários de teste diferentes (não equivalentes) não são comparáveis. O mesmo acontece com a mistura de avaliadores indulgentes e difíceis; a confiabilidade das classificações agrupadas é incorretamente estimada pela equação de Spearman-Brown da teoria clássica dos testes. As questões são piores se cada juiz definir um construto de maneira um pouco diferente. "

reliability psychometrics

— Joel W.
fonte

Acho que o problema de procurar uma fonte confiável é que a resposta vem da teoria dos testes, e é meio óbvio se você entender a teoria subjacente e, em particular, as limitações de nossa capacidade de avaliar a confiabilidade. É por isso que Guion não se importa em explicar. Mas, de qualquer forma, boa sorte na sua pesquisa - talvez alguém, em algum lugar, saiba uma explicação melhor.

— Jeremy Miles

Respostas:

Embora eu me sinta um pouco envergonhado por contradizer um "texto respeitado" e outro usuário de currículo, parece-me que a fórmula de Spearman-Brown não é afetada por ter itens de dificuldade diferente. Certamente, a fórmula de Spearman-Brown é geralmente derivada sob a suposição de que temos itens paralelos , o que implica (entre outras coisas) que os itens têm a mesma dificuldade. Mas acontece que essa suposição não é necessária; pode ser relaxado para permitir dificuldades desiguais, e a fórmula de Spearman-Brown ainda se mantém. Eu demonstro isso abaixo.

Lembre-se de que na teoria clássica de teste, uma medição é assumida como a soma de um componente "pontuação verdadeira" e um componente de erro , ou seja, com e não correlacionados. A suposição de itens paralelos é que todos os itens têm as mesmas pontuações verdadeiras, diferindo apenas em seus componentes de erro, embora se presuma que tenham variância igual. Em símbolos, para qualquer par de itens e , $X$ $T$ $E$

X = T + E,

$X = T + E,$

T

$T$

E

$E$

X

$X$

X^{'}

$X'$

T = T^{'} var (E) = var (E^{'}) .

$T=T' \\\textrm{var}(E)=\textrm{var}(E').$ Vamos ver o que acontece quando relaxamos a primeira suposição, para que os itens possam diferir em suas dificuldades e, em seguida, derivar a confiabilidade de uma pontuação total do teste sob essas novas suposições. Especificamente, suponha que as pontuações verdadeiras possam diferir por uma constante aditiva, mas os erros ainda têm a mesma variação. Nos símbolos, Quaisquer diferenças de dificuldade são capturadas pela constante aditiva. Por exemplo, se , as pontuações em tendem a ser mais altas que as pontuações em , de modo que é "mais fácil" que . Podemos chamar isso de essencialmente paralelo

T = T^{'} + c^{'} var (E) = var (E^{'}) .

$T=T' + c' \\\textrm{var}(E)=\textrm{var}(E').$

c^{'} > 0

$c'>0$

X

$X$

X^{'}

$X'$

X

$X$

X^{'}

$X'$ itens, em analogia à suposição de "equivalência tau essencial" que relaxa o modelo equivalente tau de maneira semelhante.

Agora, para derivar a confiabilidade de uma forma de teste desses itens. Considere um teste que consiste em itens essencialmente paralelos, cuja soma dá a pontuação do teste. Confiabilidade é, por definição, a razão entre a variação verdadeira da pontuação e a variação observada da pontuação. Para a confiabilidade dos itens individuais, decorre da definição de paralelismo essencial que eles têm a mesma confiabilidade, que denotamos com , com sendo a variação verdadeira da pontuação e a variação do erro. Para a confiabilidade da pontuação total do teste, examinamos primeiro a variação da pontuação total do teste, que é $k$ $\rho = \sigma^2_T/(\sigma^2_T+\sigma^2_E)$ $\sigma^2_T$ $\sigma^2_E$

\begin{aligned} var (\sum_{i = 1}^{k} T_{i} + E_{i}) & = var (\sum_{i = 1}^{k} T + c_{i} + E_{i}) \\ = k^{2} σ_{T}^{2} + k σ_{E}^{2}, \end{aligned}

$\begin{aligned} \textrm{var}(\sum_{i=1}^kT_i + E_i) &= \textrm{var}(\sum_{i=1}^kT + c_i + E_i) \\ &= k^2\sigma^2_T + k\sigma^2_E, \end{aligned}$ onde (sem subscrito) é qualquer pontuação verdadeira arbitrária na qual todas as pontuações verdadeiras dos itens podem ser alteradas através de seus termos constantes, é a variação verdadeira da pontuação e é a variação do erro. Observe que os termos constantes desaparecem! Isso é fundamental. Portanto, a confiabilidade da pontuação total do teste é

T

$T$

σ_{T}^{2}

$\sigma^2_T$

σ_{E}^{2}

$\sigma^2_E$

\begin{aligned} \frac{k^{2} σ_{T}^{2}}{k^{2} σ_{T}^{2} + k σ_{E}^{2}} & = \frac{k σ_{T}^{2}}{k σ_{T}^{2} + σ_{X}^{2} - σ_{T}^{2}} \\ = \frac{k ρ}{1 + (k - 1) ρ}, \end{aligned}

$\begin{aligned} \frac{k^2\sigma^2_T}{k^2\sigma^2_T + k\sigma^2_E} &= \frac{k\sigma^2_T}{k\sigma^2_T + \sigma^2_X - \sigma^2_T} \\&= \frac{k\rho}{1+(k-1)\rho}, \end{aligned}$ que é apenas a fórmula clássica de Spearman-Brown, inalterada. O que isso mostra é que, mesmo ao variar a "dificuldade" dos itens, definidos como suas pontuações médias, a fórmula de Spearman-Brown ainda é válida.

O @JeremyMiles levanta alguns pontos interessantes e importantes sobre o que pode acontecer quando aumentamos a duração do teste "no mundo real", mas pelo menos de acordo com as premissas idealizadas da teoria clássica dos testes, variações na dificuldade do item não importam para a confiabilidade de um formulário de teste (em forte contraste com as suposições da moderna teoria de resposta ao item!). Essa mesma linha básica de raciocínio também é o motivo pelo qual geralmente falamos de equivalência tau essencial em vez de equivalência tau, porque a maioria dos resultados importantes se aplica ao caso mais brando em que as dificuldades dos itens (ou seja, meios) podem diferir.

— Jake Westfall
fonte

Sim, bom argumento. O que escrevi não é necessariamente válido.

— Jeremy Miles

Não é fácil dizer.

Primeiro, o Spearman-Brown assume que os itens de teste (ou avaliadores) são amostrados aleatoriamente em uma população de itens de teste (ou avaliadores). Isso nunca é realmente verdade, principalmente nos testes, porque criar mais itens é difícil, e é provável que você use os melhores itens para começar - então você descobrirá que o teste precisa ser mais longo, então você 'raspe o barril' para itens.

Segundo, os itens variam em termos de confiabilidade e a confiabilidade não está necessariamente relacionada à dificuldade (se ajudar, pense na inclinação e na interceptação da curva característica do item na teoria da resposta ao item). No entanto, o cálculo da confiabilidade (digamos, o alfa de Cronbach, que é uma forma de correlação intra-classe) assume que as confiabilidade são todas iguais (elas assumem um modelo essencial de medição equivalente a tau - ou seja, que as confiabilidade não padronizadas de cada item são todas igual). Isso quase certamente está errado. A adição de itens pode aumentar ou diminuir. Isso depende dos itens

Aqui está outra maneira de pensar sobre isso. Seleciono aleatoriamente uma amostra de uma população e calculo a média e o erro padrão da média. Essa média será um estimador imparcial da média da população. Aumentei o tamanho da minha amostra - o valor esperado da média é o mesmo, mas é improvável que realmente seja o mesmo - quase certamente aumentará ou diminuirá. Assim como eu espero que o erro padrão fique menor, mas a quantidade diminuída não será consistente (e não é impossível que o erro padrão fique maior).

— Jeremy Miles
fonte

A fórmula SB fornece o valor mínimo, máximo ou algum valor intermediário para a confiabilidade esperada? Além disso, como as confiabilidade são calculadas em termos de correlações, por que itens fáceis / difíceis ou avaliadores têm algum efeito?

— Joel W.

A fórmula SB fornece a confiabilidade esperada. Pode ser maior ou menor que isso. Um problema é que há mais de uma maneira de calcular a confiabilidade, e as suposições que eles fazem raramente são satisfeitas. A coisa toda está meio enraizada na teoria clássica de teste - a teoria da resposta ao item é uma maneira mais moderna de pensar em medição, e faz mais sentido a maior parte do tempo, por exemplo, a confiabilidade de um teste não é a mesma para cada pessoa na TRI.

— Jeremy Miles

Se uma pergunta for muito difícil ou muito fácil, ela poderá afetar a correlação. Por exemplo, "7 * 11" pode ser uma pergunta confiável para a 3ª série, mas para os estudantes de matemática, não é.

— Jeremy Miles

<o teste precisa ser mais longo, então você vai "raspar o barril" em busca de itens. Claramente, você teve experiência no mundo real montando testes.

— Joel W.