| x¯- 100 |
Fisher pensou que o valor-p poderia ser interpretado como uma medida contínua de evidência contra a hipótese nula . Não existe um valor fixo específico no qual os resultados se tornem "significativos". A maneira como costumo transmitir isso às pessoas é salientar que, para todos os efeitos, p = 0,049 ep = 0,051 constituem uma quantidade idêntica de evidência contra a hipótese nula (cf. resposta de @ Henrik aqui ) .
Por outro lado, Neyman e Pearson pensaram que você poderia usar o valor-p como parte de um processo formal de tomada de decisão . No final de sua investigação, você deve rejeitar a hipótese nula ou deixar de rejeitar a hipótese nula. Além disso, a hipótese nula pode ser verdadeira ou não. Portanto, existem quatro possibilidades teóricas (embora em qualquer situação, haja apenas duas): você pode tomar uma decisão correta (deixar de rejeitar uma hipótese verdadeira - ou rejeitar uma hipótese falsa - nula) ou fazer um tipo Erro I ou tipo II (rejeitando um nulo verdadeiro ou falhando em rejeitar uma hipótese nula falsa, respectivamente). (Observe que o valor p não é o mesmo que a taxa de erro do tipo I, que discuto aquiαp < α
As abordagens de Fisherian e Neyman-Pearson não são as mesmas . O argumento central da estrutura de Neyman-Pearson é que, no final do seu estudo, você precisa tomar uma decisão e se afastar. Alegadamente, um pesquisador abordou Fisher com resultados "não significativos", perguntando o que ele deveria fazer e Fisher disse: "vá buscar mais dados".
Pessoalmente, acho a lógica elegante da abordagem Neyman-Pearson muito atraente. Mas não acho que seja sempre apropriado. Na minha opinião, pelo menos duas condições devem ser atendidas antes que a estrutura de Neyman-Pearson seja considerada:
- Deve haver alguma hipótese alternativa específica ( magnitude do efeito ) com a qual você se preocupa por algum motivo. (Eu não ligo para o tamanho do efeito, qual é o seu motivo, se é bem fundamentado ou coerente etc., apenas que você tenha um.)
- Deve haver alguma razão para suspeitar que o efeito será "significativo", se a hipótese alternativa for verdadeira. (Na prática, isso normalmente significa que você realizou uma análise de energia e possui dados suficientes.)
Quando essas condições não são atendidas, o valor-p ainda pode ser interpretado de acordo com as idéias de Fisher. Além disso, parece-me provável que na maioria das vezes essas condições não sejam atendidas. Aqui estão alguns exemplos fáceis que vêm à mente, onde os testes são executados, mas as condições acima não são atendidas:
- a ANOVA omnibus para um modelo de regressão múltipla (é possível descobrir como todos os parâmetros hipotéticos de inclinação diferente de zero se reúnem para criar um parâmetro de não centralidade para a distribuição F , mas não é remotamente intuitivo e duvido que alguém faz isso)
- W
- o valor de um teste de homogeneidade de variância (por exemplo, teste de Levene ; mesmos comentários acima)
- quaisquer outros testes para verificar suposições etc.
- testes t de covariáveis que não sejam a variável explicativa de interesse principal no estudo
- pesquisa inicial / exploratória (por exemplo, estudos-piloto)