Discordância entre valores-p e intervalos de confiança


8

Esta é uma pergunta sobre o teste t no SPSS.

Eu tenho dois grupos e quero testar se as duas médias são iguais. Estou usando o teste t com bootstrapping. No final, obtive um valor p <0,005, o que geralmente me levaria a rejeitar a hipótese nula de que as médias das duas populações são iguais, mas, no meu caso, o zero está dentro dos intervalos de confiança de auto-inicialização de 95% BCa, com base em 1000 amostras .

Ainda rejeito a hipótese de meios iguais?


1
Para esclarecer, você realizou um teste t de inicialização a partir do qual agora está comparando o valor de p e IC de 95% ou executou um teste t padrão (não de inicialização) para obter o valor de p e usou apenas a inicialização para o CI?
Rose Hartman

Respostas:


7

Advertência: Esta resposta assume que a pergunta é sobre a interpretação de valores-p e ICs com bootstrap. Uma comparação entre um valor p tradicional (não inicializado) e um IC inicializado seria um problema diferente.

Com um teste t tradicional (não inicializado), o IC de 95% e a posição do valor p em relação ao ponto de corte de 0,05 para significância sempre dirão a mesma coisa. Isso ocorre porque ambos são baseados nas mesmas informações: a distribuição t para seus graus de liberdade e o erro médio e padrão observado em sua amostra (ou diferença entre média e erro padrão, no caso de um t-amostra de duas amostras). teste). Se o seu IC não se sobrepuser a 0, seu valor-p será necessariamente <0,05 - a menos que, é claro, haja um erro no software ou um erro do usuário na implementação ou interpretação do teste.

Com um teste t de inicialização, o valor de IC ep é calculado diretamente a partir da distribuição empírica gerada pela inicialização: o valor de p é simplesmente o percentual de diferenças entre os grupos de inicialização é mais extremo que a diferença observada original; o IC95% é o 95% médio das diferenças entre os grupos iniciados. Não é impossível para o valor p e o IC discordarem sobre a significância em um teste de inicialização.

Você aceita ou rejeita a hipótese nula?

No contexto de um teste de inicialização, o valor p (em comparação com o IC) reflete mais diretamente o espírito do teste de hipótese, portanto, faz mais sentido confiar nesse valor para decidir se deve ou não rejeitar o nulo em o alfa desejado (geralmente 0,05). Portanto, no seu caso, onde o valor de p é menor que 0,05, mas o IC de 95% contém zero, recomendo rejeitar a hipótese nula .

Tudo isso pula as grandes idéias sobre o quão importante a "significância" realmente deve ser e se o teste de significância de hipóteses nula é ou não realmente útil para uma ferramenta. Resumidamente, eu sempre recomendo elogiar qualquer análise de teste de significância com estimativa de tamanhos de efeito (para um teste t de duas amostras, a melhor estimativa de tamanho de efeito provavelmente será o d de Cohen ), que pode fornecer algum contexto adicional para ajudar você a entender seus resultados.

Post útil relacionado: Qual é o significado de um intervalo de confiança obtido de reamostragens com bootstrap?


1
Essa é uma ótima resposta (+1), mas alguns conselhos sobre como o OP se aproxima, se ele aceita ou rejeita o Nulo, completariam a resposta para a pergunta final do OP.
Ashe

@ Ashe Obrigado! Você está certo que eu não resolvi a questão central de frente. Vou editar para melhorar isso.
Rose Hartman

"para um teste t de duas amostras, a melhor estimativa do tamanho do efeito provavelmente será o d de Cohen" Isso é específico para o bootstrap? Como eu pensaria em um teste t normal, o intervalo de confiança fornece as melhores informações sobre o tamanho do efeito na escala real em que você testou.
David Ernst

O d de Cohen é para qualquer diferença de dois grupos; iniciar ou não é irrelevante. Os ICs geralmente não são considerados estimativas do "tamanho do efeito", pois dependem do tamanho da amostra (por exemplo, en.wikipedia.org/wiki/… : "Diferente da estatística do teste t, o tamanho do efeito visa estimar um parâmetro populacional e não é afetado. pelo tamanho da amostra. ") Talvez você esteja se perguntando sobre estimativas de tamanho de efeito padronizadas versus não padronizadas? O tamanho do efeito não padronizado para dois grupos é apenas a diferença bruta entre médias.
Rose Hartman

Muito Obrigado! Sua explicação sobre o valor-p e o IC no contexto de um teste t com bootstrap foi muito útil. Como você sugere, eu determinei o d de Cohen, uma estatística muito útil para entender meus resultados.
Liza Vieira

0

Se o valor p da hipótese nula for menor que 0,05, o zero não deverá estar contido no intervalo de confiança em 0,05 do parâmetro que você supõe ser zero na hipótese nula. Isso é a mesma coisa. Portanto, há um erro ou você não testa a mesma hipótese.

EDIT , como as outras respostas e o comentário abaixo indicam corretamente, essa não é a história completa. No entanto, ainda acho que, se um teste indica que os grupos têm média diferente (p <0,005) e o outro não rejeita (p> 0,05), provavelmente os testes estão realmente verificando uma coisa diferente.

Embora teoricamente essa diferença possa ser devida a assintóticos (bootstraps são aproximações em amostras finitas, outros testes são aproximações baseadas em suposições de normalidade), essa diferença é surpreendentemente grande. Argumento que é assustadoramente grande e, sem descobrir o que está acontecendo com isso, você ainda não deve tirar conclusões. Também é exatamente isso que você está fazendo, postando a pergunta aqui. Talvez você possa compartilhar os números e tornar essa pergunta interessante um pouco mais concreta.


2
Discordo. Um intervalo de confiança de inicialização pode não seguir os resultados de um teste t, pois é um tipo totalmente diferente de procedimento (nesse caso, com base na diferença de médias do grupo). Especialmente quando é feito o intervalo de confiança de inicialização auto-corrigido e corrigido, coisas como intervalos de confiança assimétricos em torno da estimativa original (ou seja, diferença de médias de grupo nesse caso) podem ocorrer.
IWS
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.