Minha avaliação pessoal de seus argumentos:
- Aqui ele fala sobre o uso de como evidência para o Nulo, enquanto sua tese é que p não pode ser usado como evidência contra o Nulo. Então, acho que esse argumento é amplamente irrelevante.pp
- Eu acho que isso é um mal-entendido. O teste Fisher segue fortemente a idéia do Racionalismo Crítico de Popper, que afirma que você não pode apoiar uma teoria, mas apenas criticá-la. Portanto, nesse sentido, existe apenas uma hipótese (o Nulo) e você simplesmente verifica se seus dados estão de acordo com eles.p
- Eu discordo aqui. Depende da estatística do teste, mas é geralmente uma transformação de um tamanho de efeito que fala contra o Nulo. Portanto, quanto maior o efeito, menor o valor de p - todas as outras coisas são iguais. Obviamente, para diferentes conjuntos de dados ou hipóteses, isso não é mais válido. p
- Eu não estou certo que eu entendo completamente essa afirmação, mas pelo que eu pude perceber isso é menos um problema de a partir de pessoas que o usam de forma errada. O objetivo de p era ter a interpretação da frequência de longo prazo, e esse é um recurso, não um bug. Mas você não pode culpar p por pessoas que usam um único valor de p como prova de sua hipótese ou por pessoas que publicam apenas p < 0,05 . ppppp<.05
Sua sugestão de usar a razão de verossimilhança como uma medida de evidência é na minha opinião uma boa (mas aqui a idéia de um fator de Bayes é mais geral), mas no contexto em que ele a traz é um pouco peculiar: primeiro ele sai os motivos dos testes nos Pescadores em que não há hipótese alternativa para calcular a razão de verossimilhança. Mas como evidência contra o Nulo é Pescador. Por isso, ele confunde Fisher e Neyman-Pearson. Segundo, a maioria das estatísticas de teste que usamos são (funções) da razão de verossimilhança e, nesse caso, p é uma transformação da razão de verossimilhança. Como Cosma Shalizi coloca:pp
entre todos os testes de um determinado tamanho , aquele com a menor probabilidade de falta, ou maior potência, tem a forma "diga 'sinal' se
q ( x ) / p ( x ) > t ( s ) , caso contrário diga 'ruído' , "e que o limite t
varia inversamente com s . A quantidade q ( x ) / p ( x ) é a razão de verossimilhança; o lema de Neyman-Pearson diz que, para maximizar a potência, deveríamos dizer "sinal" se for suficientemente mais provável que o ruído.sq(x)/p(x)>t(s)tsq(x)/p(x)
Aqui é a densidade no estado "sinal" ep ( x ) a densidade no estado "ruído". A medida para "suficientemente provável" iria aqui ser P ( q ( X ) / p ( x ) > t o b s | H 0 ) o qual é p . Note-se que na correcta Neyman-Pearson teste t o b s é substituído por um fixo T ( s ) tal que Pq(x)p(x)P(q(X)/p(x)>tobs∣H0)ptobst(s)P(q(X)/p(x)>t(s)∣H0)=α