É importante enquadrar a questão adequadamente e adotar um modelo conceitual útil das pontuações.
A questão
Os limites potenciais de trapaça, como 55, 65 e 85, são conhecidos a priori independentemente dos dados: eles não precisam ser determinados a partir dos dados. (Portanto, esse não é um problema de detecção discrepante nem um problema de ajuste de distribuição.) O teste deve avaliar a evidência de que algumas (nem todas) pontuações apenas inferiores a esses limites foram movidas para esses limites (ou, talvez, apenas acima desses limites).
Modelo conceitual
Para o modelo conceitual, é crucial entender que é improvável que os escores tenham uma distribuição normal (nem qualquer outra distribuição facilmente parametrizada). Isso é bastante claro no exemplo postado e em todos os outros exemplos do relatório original. Essas pontuações representam uma mistura de escolas; mesmo se as distribuições dentro de qualquer escola fossem normais (não são), a mistura provavelmente não será normal.
Uma abordagem simples aceita que exista uma verdadeira distribuição de pontuação: a que seria relatada, exceto por essa forma específica de trapaça. Portanto, é uma configuração não paramétrica. Isso parece muito amplo, mas há algumas características da distribuição de pontuação que podem ser antecipadas ou observadas nos dados reais:
As contagens de pontuação , i , e i + 1 será estreitamente correlacionadas, 1 ≤ i ≤ 99 .i - 1Eui + 11 ≤ i ≤ 99
Haverá variações nessas contagens em torno de uma versão suave idealizada da distribuição de pontuação. Essas variações geralmente têm um tamanho igual à raiz quadrada da contagem.
Trapacear em relação a um limite não afetará as contagens para qualquer pontuação i ≥ t . Seu efeito é proporcional à contagem de cada pontuação (o número de estudantes "em risco" por serem afetados por trapaça). Para as pontuações i abaixo desse limite, a contagem c ( i ) será reduzida em alguma fração δ ( t - i ) c ( i ) e esse valor será adicionado a t ( i ) .ti ≥ tEuc ( i )δ( t - i ) c ( i )t ( i )
A quantidade de mudança diminui com a distância entre uma pontuação e o limiar: é uma função decrescente de i = 1 , 2 , … .δ( I )i = 1 , 2 , …
Dado um limiar , a hipótese nula (sem trapaça) é que δ ( 1 ) = 0 , implicando que δ seja identicamente 0 . A alternativa é que δ ( 1 ) > 0 .tδ( 1 ) = 0δ0 0δ( 1 ) > 0
Construindo um teste
Qual estatística de teste usar? De acordo com essas premissas, (a) o efeito é aditivo nas contagens e (b) o maior efeito ocorrerá em torno do limiar. Isso indica observar as primeiras diferenças das contagens, . Considerações adicionais sugerem ir um passo adiante: sob a hipótese alternativa, esperamos ver uma sequência de contagens gradualmente deprimidas à medida que a pontuação i se aproxima do limiar t de baixo e, em seguida, (i) uma grande mudança positiva em t seguida por (ii) a grande variação negativa emc′( i ) = c ( i + 1 ) - c ( i )Eutt . Para maximizar o poder do teste, vejamos assegundas diferenças,t + 1
c′ ′( i ) = c′( i + 1 ) - c′( i ) = c ( i + 2 ) - 2 c ( i + 1 ) + c ( i ) ,
porque em isso combinará um grande declínio negativo c ( t + 1 ) - c ( t ) com o negativo de um grande aumento positivo c ( t ) - c ( t - 1 ) , aumentando assim o efeito de trapaça .i = t - 1c ( t + 1 ) - c ( t )c ( t ) - c ( t - 1 )
Vou supor - e isso pode ser verificado - que a correlação serial das contagens próximas ao limite é bastante pequena. (A correlação serial em outros lugares é irrelevante.) Isso implica que a variação de é aproximadamentec′ ′( t - 1 ) = c ( t + 1 ) - 2 c ( t ) + c ( t - 1 )
var ( c′ ′( t - 1 ) ) ≈ var ( c ( t + 1 ) ) + ( - 2 )2var ( c ( t ) ) + var ( c ( t - 1 ) ) .
Eu sugeri anteriormente que para todos os i (algo que também pode ser verificado). De ondevar ( c ( i ) ) ≈ c ( i )Eu
z= c′ ′( t - 1 ) / c ( t + 1 ) + 4 c ( t ) + c ( t - 1 )--------------------√
deve ter aproximadamente variação de unidade. Para grandes populações de escores (o publicado parece estar em torno de 20.000), também podemos esperar uma distribuição aproximadamente normal de . Como esperamos que um valor altamente negativo indique um padrão de trapaça, obtemos facilmente um teste do tamanho α : escrevendo Φ para o cdf da distribuição normal padrão, rejeitamos a hipótese de não trapaça no limiar t quando Φ ( z ) < α .c′ ′( t - 1 )αΦtΦ ( z) < α
Exemplo
Por exemplo, considere este conjunto de pontuações de teste verdadeiras , extraídas de uma mistura de três distribuições normais:
t = 65δ( i ) = exp( - 2 i )
zt
z
z= - 4,19Φ ( z) = 0,0000136
z
Ao aplicar esse teste a vários limites, um ajuste de Bonferroni do tamanho do teste seria sábio. Um ajuste adicional quando aplicado a vários testes ao mesmo tempo também seria uma boa ideia.
Avaliação
zz é tão simples que simulações serão praticáveis e rápidas de executar.