Nos últimos anos, vários estudiosos levantaram um problema prejudicial do teste de hipóteses científicas, apelidado de "grau de liberdade do pesquisador", o que significa que os cientistas têm inúmeras opções a fazer durante suas análises que têm como objetivo encontrar valores de p <5%. Essas opções ambíguas são, por exemplo, qual caso a ser incluído, qual caso é categorizado como externo, executando inúmeras especificações de modelos até que algo apareça, não publique resultados nulos etc. (O artigo que provocou esse debate em psicologia está aqui , veja um artigo popular do Slate e um debate de acompanhamento de Andrew Gelman aqui , e a revista Time também aborda esse tópico aqui .)
Primeiro , uma pergunta de esclarecimento:
A revista Time escreveu:
"Um poder de 0,8 significa que das dez hipóteses verdadeiras testadas, apenas duas serão descartadas porque seus efeitos não são detectados nos dados;"
Não tenho certeza de como isso se encaixa na definição da função de poder que encontrei no livro, que é a probabilidade de rejeitar o nulo como uma função do parâmetro . Com θ diferente , temos poder diferente, por isso não entendo bem a citação acima.
Segundo , algumas implicações da pesquisa:
No meu campo da ciência política / economia, os estudiosos simplesmente usam todos os dados disponíveis por ano. Portanto, não devemos nos preocupar com a manipulação de amostras aqui?
O problema de executar vários testes, mas reportar apenas um modelo, pode ser corrigido simplesmente pelo fato de alguém na disciplina testar novamente seu trabalho e derrubá-lo imediatamente por não ter resultados robustos? Antecipando isso, é mais provável que os estudiosos da minha área incluam uma
robustness check
seção, na qual mostram que várias especificações de modelo não alteram o resultado. Isso é suficiente?Andrew Gelman e outros argumentam que, independentemente dos dados, sempre seria possível encontrar e publicar algum "padrão" que não existe realmente. Mas isso não deve ser uma preocupação, dado o fato de que qualquer "padrão" empírico deve ser apoiado por uma teoria, e as teorias rivais dentro de uma disciplina se envolverão apenas em um debate / corrida para descobrir qual campo é capaz de encontrar mais "padrões". em vários lugares. Se um padrão for realmente falso, a teoria por trás será rapidamente derrubada quando não houver padrão semelhante em outras amostras / configurações. Não é assim que a ciência progride?
Supondo que a tendência atual dos periódicos para resultado nulo realmente floresça, existe uma maneira de agregar todos os resultados nulos e positivos e fazer uma inferência sobre a teoria que todos eles tentam testar?