Nada como responder a uma pergunta muito antiga, mas aqui vai ...
Os valores p são testes de hipótese quase válidos. Este é um esforço ligeiramente adaptado, retirado do livro de teoria das probabilidades de Jaynes, em 2003 (experimentos repetitivos: probabilidade e frequência). Suponha que tenhamos uma hipótese nula que desejamos testar. Temos dados e informação prévia . Suponha que exista alguma hipótese não especificada contra a qual testaremos . A razão de chances posterior para contra é então dada por: D I H A H 0 H A H 0H0DIHAH0HAH0
P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)
Agora, o primeiro termo no lado direito é independente dos dados, portanto, os dados podem influenciar o resultado apenas através do segundo termo. Agora, sempre podemos inventar uma hipótese alternativa tal que - uma hipótese de "ajuste perfeito". Assim, podemos usar como uma medida de quão bem os dados podem suportar qualquer hipótese alternativa sobre o nulo. Não há hipótese alternativa que os dados possam suportar sobre em mais de . Também podemos restringir a classe de alternativas, e a mudança é que o é substituído pela probabilidade maximizada (incluindo constantes de normalização) nessa classe. SeHAP(D|HAI)=11P(D|H0I)H01P(D|H0I)1P(D|H0I)começa a ficar muito pequeno, então começamos a duvidar do nulo, porque o número de alternativas entre e aumenta (incluindo algumas com probabilidades anteriores não desprezíveis). Mas isso é quase o que é feito com valores-p, mas com uma exceção: não calculamos a probabilidade de para alguma estatística e alguma região "ruim" da estatística. Calculamos a probabilidade de - a informação que realmente temos, e não um subconjunto dela, .H0HAt(D)>t0t(D)Dt(D)
Outro motivo pelo qual as pessoas usam valores-p é que elas geralmente são um teste de hipótese "adequado", mas podem ser mais fáceis de calcular. Podemos mostrar isso com o exemplo muito simples de testar a média normal com variação conhecida. Temos dados com um modelo assumido (parte das informações anteriores ). Queremos testar . Depois, após um pequeno cálculo:D≡{x1,…,xN}xi∼Normal(μ,σ2)IH0:μ=μ0
P(D|H0I)=(2πσ2)−N2exp(−N[s2+(x¯¯¯−μ0)2]2σ2)
Onde e . Isso mostra que o valor máximo de será alcançado quando . O valor maximizado é:x¯¯¯=1N∑Ni=1xis2=1N∑Ni=1(xi−x¯¯¯)2P(D|H0I)μ0=x¯¯¯
P(D|HAI)=(2πσ2)−N2exp(−Ns22σ2)
Então, tomamos a proporção desses dois e obtemos:
P(D|HAI)P(D|H0I)=(2πσ2)−N2exp(−Ns22σ2)(2πσ2)−N2exp(−Ns2+N(x¯¯¯−μ0)22σ2)=exp(z22)
Onde é a "estatística Z". Grandes valores delançam dúvidas sobre a hipótese nula, relativa à hipótese sobre a média normal que é mais fortemente apoiada pelos dados. Também podemos ver que é a única parte dos dados necessários e, portanto, é uma estatística suficiente para o teste.z=N−−√x¯¯¯−μ0σ|z|x¯¯¯
A abordagem do valor p para esse problema é quase a mesma, mas ao contrário. Começamos com a estatística suficiente e calculamos sua distribuição amostral, que é facilmente mostrada como - onde usei uma letra maiúscula para distinguir a variável aleatória do valor observado . Agora precisamos encontrar uma região que ponha em dúvida a hipótese nula: é fácil ver aquelas regiões em queé grande. Portanto, podemos calcular a probabilidade de quex¯¯¯X¯¯¯¯∼Normal(μ,σ2N)X¯¯¯¯x¯¯¯|X¯¯¯¯−μ0||X¯¯¯¯−μ0|≥|x¯¯¯−μ0|como uma medida de quão longe os dados observados estão da hipótese nula. Como antes, este é um cálculo simples, e obtemos:
p-value=P(|X¯¯¯¯−μ0|≥|x¯¯¯−μ0||H0)
=1−P[−N−−√|x¯¯¯−μ0|σ≤N−−√X¯¯¯¯−μ0σ≤N−−√|x¯¯¯−μ0|σ|H0]
=1−P(−|z|≤Z≤|z||H0)=2[1−Φ(|z|)]
Agora, podemos ver que o valor p é uma função decrescente monotônica de, o que significa que obtemos essencialmente a mesma resposta que o teste de hipótese "adequado". Rejeitar quando o valor-p está abaixo de um determinado limite é o mesmo que rejeitar quando as probabilidades posteriores estão acima de um determinado limite. No entanto, observe que, ao fazer o teste adequado, tivemos que definir a classe de alternativas e maximizar a probabilidade sobre essa classe. Para o valor-p, temos que encontrar uma estatística, calcular sua distribuição amostral e avaliar isso no valor observado. Em certo sentido, escolher uma estatística é equivalente a definir a hipótese alternativa que você está considerando.|z|
Embora sejam coisas fáceis de fazer neste exemplo, nem sempre são fáceis em casos mais complicados. Em alguns casos, pode ser mais fácil escolher a estatística correta a ser usada e calcular sua distribuição amostral. Em outros, pode ser mais fácil definir a classe de alternativas e maximizar essa classe.
Este exemplo simples é responsável por uma grande quantidade de testes baseados no valor-p, simplesmente porque muitos testes de hipóteses são da variedade "normal aproximado". Também fornece uma resposta aproximada para o seu problema de moeda (usando a aproximação normal ao binômio). Também mostra que os valores de p neste caso não o desviarão, pelo menos em termos de teste de uma única hipótese. Nesse caso, podemos dizer que um valor-p é uma medida de evidência contra a hipótese nula.
No entanto, os valores-p têm uma escala menos interpretável que o fator bayes - o vínculo entre o valor-p e a "quantidade" de evidência contra o nulo é complexo. Os valores p ficam muito pequenos muito rapidamente - o que os torna difíceis de usar adequadamente. Eles tendem a exagerar o suporte contra o nulo fornecido pelos dados. Se interpretarmos os valores de p como probabilidades contra o nulo - na forma de probabilidades é , quando a evidência real é , e na forma de probabilidades é quando a evidência real é . Ou, em outras palavras, usar um valor-p como uma probabilidade de que o nulo seja falso aqui é equivalente a definir as probabilidades anteriores. Portanto, para o valor p de0.193.870.05196.830.1as chances implícitas anteriores contra o nulo são e, para o valor p de as chances implícitas anteriores contra o nulo são .2.330.052.78