Um modelo psicologicamente significativo pode nos guiar.
Derivação de um teste útil
Qualquer variação nas observações pode ser atribuída a variações entre os sujeitos. Podemos imaginar que cada sujeito, em algum nível, tenha um valor numérico para o resultado do método 1 e um valor numérico para o resultado do método 2. Eles então comparam esses resultados. Se os dois forem suficientemente diferentes, o sujeito fará uma escolha definitiva, mas, caso contrário, o sujeito declara empate. (Isso está relacionado à existência de um limiar de discriminação .)
A variação entre os sujeitos causa variação nas observações experimentais. Haverá uma certa chance de favorecer o método 1, uma certa chance de favorecer o método 2 e uma certa chance de um empate.π 2 π 0π1π2π0
É justo supor que o sujeito responda independentemente um do outro. Por conseguinte, a probabilidade de observar indivíduos a favor do método 1, indivíduos a favor do método 2 e indivíduos a dar laços é multinomial . Além de uma constante normalizadora (irrelevante), o logaritmo da probabilidade é igual an 2 n 0n1n2n0
n1log(π1)+n2log(π2)+n0log(π0).
Dado que , isso é maximizado quando que é o número de sujeitos.π i = n i / n n = n 0 + n 1 + n 2π0+π1+π2=0πi=ni/nn=n0+n1+n2
Para testar a hipótese nula de que os dois métodos são considerados igualmente bons, maximizamos a probabilidade sujeita às restrições implícitas nessa hipótese. Tendo em mente o modelo psicológico e sua invocação de um limiar hipotético, teremos que conviver com a possibilidade de (a chance de laços) ser diferente de zero. A única maneira de detectar uma tendência a favorecer um modelo em detrimento do outro é como e são afetados: se o modelo 1 é favorecido, então deve aumentar e diminuir e vice-versa . Supondo que a variação seja simétrica , a situação de não preferência ocorre quandoπ 1 π 2 π 1 π 2 π 1 = π 2 π 0π0π1π2π1π2π1=π2 . (O tamanho de nos dirá algo sobre o limite - sobre capacidade discriminatória - mas, caso contrário, não fornece informações sobre preferências.)π0
Quando não há modelo favorito, a probabilidade máxima ocorre quando e, mais uma vez, . Conectando as duas soluções anteriores, calculamos a alteração nas probabilidades máximas, :π0=n0/nGπ1=π2=n1+n22/nπ0=n0/nG
G=(n1logn1n+n2logn2n+n0logn0n)−(n1log(n1+n2)/2n+n2log(n1+n2)/2n+n0logn0n)=n1log2n1n1+n2+n2log2n2n1+n2.
O tamanho desse valor - que não pode ser negativo - nos diz o quão credível é a hipótese nula: quando é pequeno, os dados são "explicados" quase tão bem com a hipótese nula (restritiva) quanto em geral; quando o valor é grande, a hipótese nula é menos credível.G
A teoria da estimativa de máxima verossimilhança (assintótica) diz que um limiar razoável para essa alteração é metade do quantil de uma distribuição qui-quadrado com um grau de liberdade (devido à restrição única imposta por a hipótese nula). Como sempre, é o tamanho desse teste, geralmente considerado 5% ( ) ou 1% ( ). Os quantis correspondentes são e .π 1 = π 2 α 0,05 0,01 3,841459 6,6348971−απ1=π2α0.050.013.8414596.634897
Exemplo
Suponha que de sujeitos, apóie o método 1 e método 2. Isso implica que existem vínculos. A probabilidade é maximizada, então, para e , onde tem um valor de . Sob a hipótese nula, a probabilidade é maximizada para , onde seu valor é apenas . A diferença de é menor que a metade do 5% do limite de . Portanto, fazemosn=20n1=3n2=9n0=20−3−9=8π1=3/20=0.15π2=9/20=0.45−20.208…π1=π2=6/20=0.30−21.778G=−20.208−(−21.778)=1.57α=3.84não rejeitar a hipótese nula.
Sobre laços e testes alternativos
Olhando para a fórmula de , observe que o número de gravatas ( ) não aparece . No exemplo, se tivéssemos observado indivíduos e, entre eles, favoreceram o método 1, favoreceram o método 2 e os demais estavam empatados, o resultado seria o mesmo.Gn0n=10039100−3−9=88
Dividir os laços e atribuir metade ao método 1 e metade ao método 2 é intuitivamente razoável, mas resulta em um teste menos poderoso . Por exemplo, vamos e . Considere dois casos:n1=5n2=15
n=20 sujeitos, então houve empate. O teste de máxima verossimilhança rejeitaria o nulo para qualquer valor de maior que . Outro teste frequentemente usado nessa situação (porque não há laços) é um teste binomial; rejeitaria o nulo por qualquer valor de maior que . Os dois testes, portanto, normalmente produzem os mesmos resultados, porque esses valores críticos são razoavelmente próximos.n0=0α0.02217α0.02660
n=100 sujeitos, então havia laços. O teste de máxima verossimilhança ainda rejeitaria o nulo para qualquer valor de maior que . O teste binomial rejeitaria o nulo apenas para qualquer valor de maior que . Os dois testes dão resultados totalmente diferentes. Em particular, os vínculos enfraqueceram a capacidade do teste binomial de distinguir uma diferença que a teoria da probabilidade máxima sugere ser real.n0=80α0.02217α0.319780
Finalmente, vamos considerar a abordagem da tabela de contingência3×1 sugerida em outra resposta. Considere indivíduos com favor do método 1, favor do método 2 e com vínculos. A "tabela" é apenas o vetor . Sua estatística qui-quadrado é de com dois graus de liberdade. O valor de p é , o que levaria a maioria das pessoas a concluir que não há diferença entre os métodos. O resultado da máxima probabilidade, em vez disso, fornece um valor-p de , que rejeitaria essa conclusão no nível 5%.n=20n1=3n2=10n0=7(n0,n1,n2)=(7,3,10)3.70.15720.04614α=
Com indivíduos, suponha que apenas favorecesse o método 1, apenas favorecesse o método 2 e houvesse vínculos. Intuitivamente, há muito pouca evidência de que um desses métodos tende a ser favorecido. Mas desta vez a estatística do qui-quadrado de claramente, de forma incontroversa (mas bastante errada) mostra que há uma diferença (o valor de p é menor que ).n=1001297182.4210−15
Nas duas situações, a abordagem do qui-quadrado equivale totalmente à resposta: no primeiro caso, falta poder para detectar uma diferença substancial, enquanto no segundo caso (com muitos vínculos), é extremamente confiante em relação a uma diferença inconseqüente. O problema não é que o teste do qui-quadrado seja ruim; o problema é que ele testa uma hipótese diferente: a saber, se . De acordo com nosso modelo conceitual, essa hipótese é um absurdo psicológico, porque confunde informações sobre preferências (ou seja, e ) com informações sobre limites de discriminação (ou seja, ). π1=π2=π0π1π2π0Esta é uma boa demonstração da necessidade de usar um contexto de pesquisa e conhecimento do assunto (embora simplificado) na seleção de um teste estatístico.