Advertência: Esta resposta assume que a pergunta é sobre a interpretação de valores-p e ICs com bootstrap. Uma comparação entre um valor p tradicional (não inicializado) e um IC inicializado seria um problema diferente.
Com um teste t tradicional (não inicializado), o IC de 95% e a posição do valor p em relação ao ponto de corte de 0,05 para significância sempre dirão a mesma coisa. Isso ocorre porque ambos são baseados nas mesmas informações: a distribuição t para seus graus de liberdade e o erro médio e padrão observado em sua amostra (ou diferença entre média e erro padrão, no caso de um t-amostra de duas amostras). teste). Se o seu IC não se sobrepuser a 0, seu valor-p será necessariamente <0,05 - a menos que, é claro, haja um erro no software ou um erro do usuário na implementação ou interpretação do teste.
Com um teste t de inicialização, o valor de IC ep é calculado diretamente a partir da distribuição empírica gerada pela inicialização: o valor de p é simplesmente o percentual de diferenças entre os grupos de inicialização é mais extremo que a diferença observada original; o IC95% é o 95% médio das diferenças entre os grupos iniciados. Não é impossível para o valor p e o IC discordarem sobre a significância em um teste de inicialização.
Você aceita ou rejeita a hipótese nula?
No contexto de um teste de inicialização, o valor p (em comparação com o IC) reflete mais diretamente o espírito do teste de hipótese, portanto, faz mais sentido confiar nesse valor para decidir se deve ou não rejeitar o nulo em o alfa desejado (geralmente 0,05). Portanto, no seu caso, onde o valor de p é menor que 0,05, mas o IC de 95% contém zero, recomendo rejeitar a hipótese nula .
Tudo isso pula as grandes idéias sobre o quão importante a "significância" realmente deve ser e se o teste de significância de hipóteses nula é ou não realmente útil para uma ferramenta. Resumidamente, eu sempre recomendo elogiar qualquer análise de teste de significância com estimativa de tamanhos de efeito (para um teste t de duas amostras, a melhor estimativa de tamanho de efeito provavelmente será o d de Cohen ), que pode fornecer algum contexto adicional para ajudar você a entender seus resultados.
Post útil relacionado: Qual é o significado de um intervalo de confiança obtido de reamostragens com bootstrap?