Quais são as condições de dados que devemos observar, onde os valores de p podem não ser a melhor maneira de decidir a significância estatística? Existem tipos de problemas específicos que se enquadram nessa categoria?
Quais são as condições de dados que devemos observar, onde os valores de p podem não ser a melhor maneira de decidir a significância estatística? Existem tipos de problemas específicos que se enquadram nessa categoria?
Respostas:
Você está perguntando sobre a Dragagem de Dados , que é o que acontece ao testar um número muito grande de hipóteses em um conjunto de dados ou ao testar hipóteses em um conjunto de dados sugerido pelos mesmos dados.
Em particular, confira Risco de múltiplas hipóteses e Hipóteses de teste sugeridas pelos dados .
A solução é usar algum tipo de correção para a taxa de descoberta falsa ou a taxa de erro Familywise , como o método de Scheffé ou a correção Bonferroni (muito antiga) .
De uma maneira um pouco menos rigorosa, pode ajudar a filtrar suas descobertas pelo intervalo de confiança para o odds ratio (OR) de cada resultado estatístico. Se o intervalo de confiança de 99% para o odds ratio for 10-12, o OR será <= 1 com uma probabilidade extremamente pequena, especialmente se o tamanho da amostra também for grande. Se você encontrar algo assim, provavelmente é um efeito forte, mesmo que tenha saído de um teste de milhões de hipóteses.
Você não deve considerar o valor p fora de contexto.
Um ponto bastante básico (como ilustrado pelo xkcd ) é que você precisa considerar quantos testes está realmente fazendo. Obviamente, você não deve ficar chocado ao ver p <0,05 para um em cada 20 testes, mesmo que a hipótese nula seja verdadeira todas as vezes.
Um exemplo mais sutil disso ocorre na física de alta energia e é conhecido como efeito de procurar outro lugar . Quanto maior o espaço de parâmetro que você procura por um sinal que possa representar uma nova partícula, maior a probabilidade de você ver um sinal aparente que realmente é apenas devido a flutuações aleatórias.
Uma coisa que você deve estar ciente é o tamanho da amostra que você está usando. Amostras muito grandes, como economistas que usam dados do censo, levarão a valores de p deflacionados. Este artigo "Grande demais para falir: amostras grandes e o problema do valor-p" aborda alguns dos problemas.