Contexto
Isso é um pouco semelhante a esta pergunta , mas não acho que seja uma duplicata exata.
Quando você procura instruções sobre como executar um teste de hipótese de autoinicialização, geralmente é afirmado que é bom usar a distribuição empírica para intervalos de confiança, mas que você precisa inicializar corretamente a distribuição sob a hipótese nula para obter um p- valor. Como exemplo, veja a resposta aceita para esta pergunta . Uma pesquisa geral na internet parece apresentar respostas semelhantes.
A razão para não usar um valor-p com base na distribuição empírica é que na maioria das vezes não temos invariância na tradução.
Exemplo
Deixe-me dar um pequeno exemplo. Temos uma moeda e queremos fazer um teste unilateral para ver se a frequência das cabeças é maior que 0,5
Realizamos tentativas e obtemos cabeças. O verdadeiro valor de p para este teste seria .
Por outro lado, se o arranque a 14 para fora de 20 cabeças, que de forma eficaz a partir da amostra a distribuição binomial com e . Mudando essa distribuição subtraindo 0,2, obteremos um resultado pouco significativo ao testar nosso valor observado de 0,7 em relação à distribuição empírica obtida.
Nesse caso, a discrepância é muito pequena, mas aumenta quando a taxa de sucesso contra a qual testamos se aproxima de 1.
Questão
Agora, deixe-me chegar ao ponto real da minha pergunta: o mesmo defeito também vale para intervalos de confiança. De fato, se um intervalo de confiança tem o nível de confiança declarado então o intervalo de confiança que não contém o parâmetro sob a hipótese nula é equivalente a rejeitar a hipótese nula em um nível de significância de .
Por que os intervalos de confiança baseados na distribuição empírica são amplamente aceitos e o valor p não?
Existe uma razão mais profunda ou as pessoas simplesmente não são tão conservadoras com intervalos de confiança?
Nesta resposta, Peter Dalgaard dá uma resposta que parece concordar com o meu argumento. Ele diz:
Não há nada de particularmente errado nessa linha de raciocínio, ou pelo menos não (muito) pior que o cálculo do IC.
De onde vem (muito)? Isso implica que a geração de valores p dessa maneira é um pouco pior, mas não é detalhada.
Pensamentos finais
Também em Uma Introdução ao Bootstrap de Efron e Tibshirani, eles dedicam muito espaço aos intervalos de confiança, mas não aos valores de p, a menos que sejam gerados sob uma distribuição de hipóteses nula adequada, com exceção de uma linha descartável sobre a equivalência geral de intervalos de confiança e valores-p no capítulo sobre teste de permutação.
Voltemos também à primeira pergunta que vinculei. Eu concordo com a resposta de Michael Chernick, mas, novamente, ele também argumenta que os intervalos de confiança e os valores de p com base na distribuição empírica do bootstrap são igualmente não confiáveis em alguns cenários. Não explica por que você encontra muitas pessoas dizendo que os intervalos estão corretos, mas os valores-p não.