A frase p- hacking (também: "dragagem de dados" , "espionagem" ou "pesca") refere-se a vários tipos de negligência estatística nas quais os resultados se tornam artificialmente estatisticamente significativos. Existem várias maneiras de obter um resultado "mais significativo", incluindo, mas de forma alguma limitado a:
- analisando apenas um subconjunto "interessante" dos dados , no qual um padrão foi encontrado;
- falha no ajuste adequado para vários testes , particularmente testes post-hoc e falha no relatório de testes realizados que não foram significativos;
- tentando testes diferentes da mesma hipótese , por exemplo, um teste paramétrico e um não paramétrico ( há alguma discussão sobre esse tópico ), mas apenas relatando os mais significativos;
- experimentando a inclusão / exclusão de pontos de dados , até que o resultado desejado seja obtido. Uma oportunidade surge quando "dados discrepantes da limpeza de dados", mas também ao aplicar uma definição ambígua (por exemplo, em um estudo econométrico de "países desenvolvidos", definições diferentes produzem conjuntos diferentes de países) ou critérios de inclusão qualitativa (por exemplo, em uma metanálise , pode ser um argumento finamente equilibrado se a metodologia de um determinado estudo é suficientemente robusta para incluir);
- o exemplo anterior está relacionado à parada opcional , ou seja, analisando um conjunto de dados e decidindo se deve coletar mais dados ou não, dependendo dos dados coletados até o momento ("isso é quase significativo, vamos medir mais três alunos!") sem levar em conta isso na análise;
- experimentação durante o ajuste do modelo , especialmente covariáveis a serem incluídas, mas também em relação à transformação de dados / forma funcional.
Então, sabemos que o p- hacking pode ser feito. É frequentemente listado como um dos "perigos do valor- p " e foi mencionado no relatório da ASA sobre significância estatística, discutido aqui no Cross Validated , então também sabemos que é uma coisa ruim. Embora algumas motivações duvidosas e (particularmente na competição pela publicação acadêmica) incentivos contraproducentes sejam óbvios, suspeito que seja difícil descobrir por que isso foi feito, seja por negligência deliberada ou por simples ignorância. Alguém relatando valores de p a partir de uma regressão gradual (porque eles acham procedimentos passo a passo "produzem bons modelos", mas não estão cientes da suposta p-Valores são invalidadas) é neste último campo, mas o efeito é ainda p -hacking sob o último dos meus pontos acima.
Certamente há evidências de que o hackear p está "lá fora", por exemplo, Head et al (2015) procura sinais indicadores de que ele está infectando a literatura científica, mas qual é o estado atual de nossa base de evidências sobre isso? Estou ciente de que a abordagem adotada por Head et al não foi isenta de controvérsias; portanto, o estado atual da literatura ou o pensamento geral na comunidade acadêmica seria interessante. Por exemplo, temos alguma idéia sobre:
- Quão prevalente é e em que medida podemos diferenciar sua ocorrência do viés de publicação ? (Essa distinção é significativa?)
- É o efeito particularmente agudo no fronteira? São efeitos semelhantes visto em p ≈ 0,01 , por exemplo, ou vamos ver faixas inteiras de p -Valores afetado?
- Os padrões no p- hacking variam entre os campos acadêmicos?
- Temos alguma idéia de quais dos mecanismos de hackeamento p (alguns dos quais estão listados nos itens acima) são os mais comuns? Algumas formas provaram ser mais difíceis de detectar do que outras porque são "melhor disfarçadas"?
Referências
Chefe, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). A extensão e as consequências do p- hacking na ciência . PLoS Biol , 13 (3), e1002106.