Um valor-p é uma variável aleatória.
Sob (pelo menos para uma estatística distribuída continuamente), o valor p deve ter uma distribuição uniformeH0 0
Para um teste consistente, em o valor de p deve ir para 0 no limite, à medida que o tamanho da amostra aumenta em direção ao infinito. Da mesma forma, à medida que os tamanhos dos efeitos aumentam, as distribuições de valores-p também tendem a mudar para 0, mas sempre serão "dispersas".H1
A noção de um valor p "verdadeiro" parece absurdo para mim. O que significaria, sob ou ? Você pode, por exemplo, dizer que quer dizer " a média da distribuição dos valores-p em um determinado tamanho de efeito e tamanho da amostra ", mas, em que sentido você tem convergência onde a propagação deve encolher? Não é como se você pudesse aumentar o tamanho da amostra enquanto a mantinha constante.H0 0H1
Aqui está um exemplo com uma amostra de testes t e um pequeno tamanho de efeito em . Os valores de p são quase uniformes quando o tamanho da amostra é pequeno e a distribuição concentra-se lentamente em 0, conforme o tamanho da amostra aumenta.H1
É exatamente assim que os valores de p devem se comportar - para um nulo falso, à medida que o tamanho da amostra aumenta, os valores de p devem ficar mais concentrados em valores baixos, mas não há nada que sugira que a distribuição dos valores necessários quando você cometer um erro do tipo II - quando o valor-p estiver acima do seu nível de significância - de alguma forma deve acabar "próximo" desse nível de significância.
O que, então, seria um valor-p ser uma estimativa de ? Não é como se estivesse convergindo para algo (diferente de 0). Não está totalmente claro por que se esperaria que um valor-p tivesse baixa variação em qualquer lugar, mas quando se aproxima de 0, mesmo quando a potência é muito boa (por exemplo, para , potência no caso n = 1000, há perto de 57%, mas ainda é perfeitamente possível obter um valor p próximo de 1)α = 0,05
Muitas vezes, é útil considerar o que está acontecendo, tanto com a distribuição de qualquer estatística de teste usada sob a alternativa quanto com a aplicação do cdf sob o nulo, como uma transformação que fará na distribuição (que fornecerá a distribuição do valor p em a alternativa específica). Quando você pensa nesses termos, muitas vezes não é difícil ver por que o comportamento é como é.
O problema que vejo não é tanto o fato de existir algum problema inerente aos valores-p ou ao teste de hipóteses, é mais um caso de o teste de hipóteses ser uma boa ferramenta para o seu problema específico ou se algo mais seria mais apropriado em qualquer caso específico - essa não é uma situação para polêmicas abrangentes, mas uma consideração cuidadosa do tipo de perguntas que os testes de hipóteses abordam e as necessidades específicas de sua circunstância. Infelizmente, raramente são feitas considerações cuidadosas sobre esses problemas - muitas vezes, é exibida uma pergunta sobre a forma "que teste eu uso para esses dados?" sem considerar o que poderia ser a questão de interesse, muito menos se algum teste de hipótese é uma boa maneira de abordá-lo.
Uma dificuldade é que os testes de hipóteses são amplamente mal compreendidos e amplamente mal utilizados; as pessoas muitas vezes pensam que nos dizem coisas que não dizem. O valor de p é possivelmente a coisa mais incompreendida nos testes de hipóteses.