Valores de p de autoinstrução não paramétricos x intervalos de confiança

Contexto

Isso é um pouco semelhante a esta pergunta , mas não acho que seja uma duplicata exata.

Quando você procura instruções sobre como executar um teste de hipótese de autoinicialização, geralmente é afirmado que é bom usar a distribuição empírica para intervalos de confiança, mas que você precisa inicializar corretamente a distribuição sob a hipótese nula para obter um p- valor. Como exemplo, veja a resposta aceita para esta pergunta . Uma pesquisa geral na internet parece apresentar respostas semelhantes.

A razão para não usar um valor-p com base na distribuição empírica é que na maioria das vezes não temos invariância na tradução.

Exemplo

Deixe-me dar um pequeno exemplo. Temos uma moeda e queremos fazer um teste unilateral para ver se a frequência das cabeças é maior que 0,5

Realizamos $n = 20$ tentativas e obtemos $k = 14$ cabeças. O verdadeiro valor de p para este teste seria $p = 0.058$ .

Por outro lado, se o arranque a 14 para fora de 20 cabeças, que de forma eficaz a partir da amostra a distribuição binomial com $n = 20$ e $p = \frac{14}{20}=0.7$ . Mudando essa distribuição subtraindo 0,2, obteremos um resultado pouco significativo ao testar nosso valor observado de 0,7 em relação à distribuição empírica obtida.

Nesse caso, a discrepância é muito pequena, mas aumenta quando a taxa de sucesso contra a qual testamos se aproxima de 1.

Questão

Agora, deixe-me chegar ao ponto real da minha pergunta: o mesmo defeito também vale para intervalos de confiança. De fato, se um intervalo de confiança tem o nível de confiança declarado $\alpha$ então o intervalo de confiança que não contém o parâmetro sob a hipótese nula é equivalente a rejeitar a hipótese nula em um nível de significância de $1- \alpha$ .

Por que os intervalos de confiança baseados na distribuição empírica são amplamente aceitos e o valor p não?

Existe uma razão mais profunda ou as pessoas simplesmente não são tão conservadoras com intervalos de confiança?

Nesta resposta, Peter Dalgaard dá uma resposta que parece concordar com o meu argumento. Ele diz:

Não há nada de particularmente errado nessa linha de raciocínio, ou pelo menos não (muito) pior que o cálculo do IC.

De onde vem (muito)? Isso implica que a geração de valores p dessa maneira é um pouco pior, mas não é detalhada.

Pensamentos finais

Também em Uma Introdução ao Bootstrap de Efron e Tibshirani, eles dedicam muito espaço aos intervalos de confiança, mas não aos valores de p, a menos que sejam gerados sob uma distribuição de hipóteses nula adequada, com exceção de uma linha descartável sobre a equivalência geral de intervalos de confiança e valores-p no capítulo sobre teste de permutação.

Voltemos também à primeira pergunta que vinculei. Eu concordo com a resposta de Michael Chernick, mas, novamente, ele também argumenta que os intervalos de confiança e os valores de p com base na distribuição empírica do bootstrap são igualmente não confiáveis em alguns cenários. Não explica por que você encontra muitas pessoas dizendo que os intervalos estão corretos, mas os valores-p não.

confidence-interval p-value bootstrap

— Erik
fonte

Estou iniciando uma recompensa nessa questão, pois estou muito interessado em obter clareza sobre como e quando os ICs de autoinicialização podem ser usados para aceitar / rejeitar uma hipótese. Talvez você possa reformular / reformatar sua pergunta para torná-la mais concisa e atraente? Obrigado !

— Xavier Bourret Sicotte

Eu acho que a maioria das pessoas concorda que, quando as seguintes premissas se aplicam, o uso do IC para teste de hipótese é bom: distribuição simétrica da estatística do teste, estatística do teste pivotal, aplicação do CLT, nenhum ou poucos parâmetros de incômodo etc. mas o que acontece quando a estatística é estranho ou não é provado ser crucial. Aqui está um exemplo real Eu estou trabalhando em: por exemplo, dois diferença de amostra entre os 75º percentis de uma estatística de razão (razão entre duas somas)

— Xavier Bourret Sicotte

Não é a resposta simples apenas que é claro como fazer a amostra sob a hipótese nula; portanto, existe um método alternativo claramente melhor? A amostragem sob o bootstrap geralmente ocorre sob a distribuição empírica, portanto, o verdadeiro mecanismo de geração de dados, de modo que claramente não deve ser usado em vez de apenas amostragem sob o nulo. O IC inicializado é encontrado ao inverter a distribuição de amostragem sob o verdadeiro mecanismo de geração de dados. É verdade que esse IC pode não funcionar bem, mas, como Dalgaard disse, não é necessariamente óbvio como corrigi-lo.

— jsk

Devo esclarecer que a distribuição empírica é apenas uma aproximação do verdadeiro mecanismo de geração de dados. A extensão em que não é representativa da verdade afetará negativamente o IC inicializado em direções desconhecidas, levando a menos de 95% de cobertura.

— jsk

A amostragem sob o nulo é clara quando o teste é uma diferença de médias, mas em muitos casos não é óbvio como reproduzir o nulo ... por exemplo, o nulo é que o percentil 75 de duas proporções é o mesmo ... como altero os numeradores e denominadores das proporções em cada amostra para obter isso? Além disso, como posso ter certeza de que a alteração dos componentes da proporção está realmente reproduzindo o nulo?

— Xavier Bourret Sicotte

Como o @MichaelChernick disse em resposta a um comentário sobre sua resposta a uma pergunta vinculada :

Geralmente, existe uma correspondência de 1 a 1 entre intervalos de confiança e testes de hipóteses. Por exemplo, um intervalo de confiança de 95% para um parâmetro de modelo representa a região de não rejeição para o teste de hipótese de nível de 5% correspondente em relação ao valor desse parâmetro. Não há requisitos sobre o formato das distribuições populacionais. Obviamente, se aplicar a intervalos de confiança em geral, será aplicado a intervalos de confiança de autoinicialização.

Portanto, esta resposta abordará dois problemas associados: (1) por que as apresentações dos resultados de autoinicialização parecem mais frequentemente especificar intervalos de confiança (IC) do que valores- p , como sugerido na pergunta, e (2) quando os valores- p podem e o IC determinado pelo bootstrap deve ser considerado não confiável, exigindo, portanto, uma abordagem alternativa.

Não conheço dados que apóiam especificamente a reivindicação desta pergunta sobre o primeiro problema. Talvez, na prática, muitas estimativas de pontos derivadas de bootstrap estejam (ou pelo menos pareçam) estar tão longe dos limites da decisão de teste que há pouco interesse no valor- p da hipótese nula correspondente, com interesse primário na própria estimativa pontual e em alguma medida razoável da magnitude de sua provável variabilidade.

Com relação à segunda questão, muitas aplicações práticas envolvem "distribuição simétrica da estatística de teste, estatística de teste central, aplicação de CLT, nenhum ou poucos parâmetros de incômodo etc." (como em um comentário de @XavierBourretSicotte acima), para o qual há pouca dificuldade. A questão passa a ser como detectar possíveis desvios dessas condições e como lidar com elas quando elas surgirem.

Esses desvios em potencial do comportamento ideal são apreciados há décadas, com várias abordagens de IC de autoinicialização desenvolvidas desde o início para lidar com eles. O bootstrap Studentized ajuda a fornecer uma estatística essencial , e o método BCa lida com o viés e a distorção em termos de obtenção de IC mais confiável a partir dos bootstraps. A transformação de dados que estabiliza a variação antes de determinar o IC com inicialização, seguida pela retrotransformação na escala original, também pode ajudar.

O exemplo nesta pergunta sobre amostragem de 14 cabeças de 20 lançamentos de uma moeda decente é bem tratado usando CI do método BCa; em R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

As outras estimativas de IC apresentam o problema observado de estar muito próximo ou próximo do valor da população de 10 cabeças por 20 lançamentos. O IC BCa é responsável pela assimetria (conforme introduzida pela amostragem binomial, além das probabilidades pares), portanto inclui bem o valor da população de 10.

Mas você deve procurar esses desvios do comportamento ideal antes de poder tirar proveito dessas soluções. Como em muitas práticas estatísticas, observar os dados em vez de apenas conectá-los a um algoritmo pode ser essencial. Por exemplo, esta pergunta sobre o IC para um resultado de bootstrap tendencioso mostra resultados para os 3 primeiros ICs mostrados no código acima, mas excluiu o ICa BCa. Quando tentei reproduzir a análise mostrada nessa pergunta para incluir o BCa CI, obtive o resultado:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

onde 'w' está envolvido na correção de viés. A estatística que está sendo examinada tem um valor máximo fixo e a estimativa de plug-in que foi inicializada também foi inerentemente tendenciosa. Obter um resultado como esse deve indicar que as suposições usuais subjacentes ao IC inicializado estão sendo violadas.

Analisar uma quantidade essencial evita esses problemas; mesmo que uma distribuição empírica não possa ter estatísticas estritamente úteis, chegar o mais próximo possível é um objetivo importante. Os últimos parágrafos desta resposta fornecem links para outros auxílios, como gráficos dinâmicos para estimar via bootstrap se uma estatística (potencialmente após alguma transformação de dados) está próxima do pivô e o bootstrap duplo computacionalmente caro, mas potencialmente decisivo.

— EdM
fonte

Obrigado edm! Se houver um reexame 1-1 entre o IC e o teste de hipóteses - por que o teste de autoinicialização geralmente envolve a troca dos conjuntos de dados para reproduzir o nulo? Ao fazer isso, não estamos obtendo resultados diferentes do que obteríamos calculando o IC da distribuição da diferença, por exemplo?

— Xavier Bourret Sicotte

@XavierBourretSicotte Eu não acho muito correto que "o teste de autoinicialização geralmente envolva a mudança dos conjuntos de dados para reproduzir o nulo". Cada amostra de inicialização é uma tentativa de replicar a amostra / experiência original, usando a amostra disponível para representar a população subjacente. Se a estatística em questão não for essencial, no entanto, o IC desenvolvido nas amostras de inicialização não representará o IC desenvolvido na população subjacente. Portanto, você precisa corrigir a distribuição da estatística em relação ao que teria sido nulo, com BCa ou outras abordagens.

— EdM