Quanto sabemos sobre o p-hacking "in the wild"?

A frase p- hacking (também: "dragagem de dados" , "espionagem" ou "pesca") refere-se a vários tipos de negligência estatística nas quais os resultados se tornam artificialmente estatisticamente significativos. Existem várias maneiras de obter um resultado "mais significativo", incluindo, mas de forma alguma limitado a:

analisando apenas um subconjunto "interessante" dos dados , no qual um padrão foi encontrado;
falha no ajuste adequado para vários testes , particularmente testes post-hoc e falha no relatório de testes realizados que não foram significativos;
tentando testes diferentes da mesma hipótese , por exemplo, um teste paramétrico e um não paramétrico ( há alguma discussão sobre esse tópico ), mas apenas relatando os mais significativos;
experimentando a inclusão / exclusão de pontos de dados , até que o resultado desejado seja obtido. Uma oportunidade surge quando "dados discrepantes da limpeza de dados", mas também ao aplicar uma definição ambígua (por exemplo, em um estudo econométrico de "países desenvolvidos", definições diferentes produzem conjuntos diferentes de países) ou critérios de inclusão qualitativa (por exemplo, em uma metanálise , pode ser um argumento finamente equilibrado se a metodologia de um determinado estudo é suficientemente robusta para incluir);
o exemplo anterior está relacionado à parada opcional , ou seja, analisando um conjunto de dados e decidindo se deve coletar mais dados ou não, dependendo dos dados coletados até o momento ("isso é quase significativo, vamos medir mais três alunos!") sem levar em conta isso na análise;
experimentação durante o ajuste do modelo , especialmente covariáveis a serem incluídas, mas também em relação à transformação de dados / forma funcional.

Então, sabemos que o p- hacking pode ser feito. É frequentemente listado como um dos "perigos do valor- p " e foi mencionado no relatório da ASA sobre significância estatística, discutido aqui no Cross Validated , então também sabemos que é uma coisa ruim. Embora algumas motivações duvidosas e (particularmente na competição pela publicação acadêmica) incentivos contraproducentes sejam óbvios, suspeito que seja difícil descobrir por que isso foi feito, seja por negligência deliberada ou por simples ignorância. Alguém relatando valores de p a partir de uma regressão gradual (porque eles acham procedimentos passo a passo "produzem bons modelos", mas não estão cientes da suposta p-Valores são invalidadas) é neste último campo, mas o efeito é ainda p -hacking sob o último dos meus pontos acima.

Certamente há evidências de que o hackear p está "lá fora", por exemplo, Head et al (2015) procura sinais indicadores de que ele está infectando a literatura científica, mas qual é o estado atual de nossa base de evidências sobre isso? Estou ciente de que a abordagem adotada por Head et al não foi isenta de controvérsias; portanto, o estado atual da literatura ou o pensamento geral na comunidade acadêmica seria interessante. Por exemplo, temos alguma idéia sobre:

Quão prevalente é e em que medida podemos diferenciar sua ocorrência do viés de publicação ? (Essa distinção é significativa?)
É o efeito particularmente agudo no fronteira? São efeitos semelhantes visto em , por exemplo, ou vamos ver faixas inteiras de p -Valores afetado? $p \approx 0.05$ $p \approx 0.01$
Os padrões no p- hacking variam entre os campos acadêmicos?
Temos alguma idéia de quais dos mecanismos de hackeamento p (alguns dos quais estão listados nos itens acima) são os mais comuns? Algumas formas provaram ser mais difíceis de detectar do que outras porque são "melhor disfarçadas"?

Referências

Chefe, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). A extensão e as consequências do p- hacking na ciência . PLoS Biol , 13 (3), e1002106.

— Silverfish
fonte

Sua última pergunta é uma boa idéia para uma pesquisa: forneça alguns dados brutos para um grupo de pesquisadores de diferentes campos, equipe-os no SPSS (ou o que quer que eles usem) e depois registre o que estão fazendo enquanto competem entre si por resultados mais significativos .

— Tim

Pode-se ser capaz de fazê-lo sem que os sujeitos saibam que isso estava acontecendo usando um histórico de envios de kaggle. Eles não estão publicando, mas estão tentando de todas as maneiras possíveis atingir o número mágico.

— precisa saber é o seguinte

O crossvalidated possui alguma coleção (por exemplo, wikis da comunidade) de exemplos simples de simulação de p-hacking? Eu estou imaginando exemplos de brinquedos em que o pesquisador simulado reage aos resultados "marginalmente significativos" através da recolha de mais dados, experiências com especificações de regressão, etc.

— Adrian

O @Adrian CV é apenas um site de perguntas e respostas, não contém dados ou códigos, não possui repositório oculto - tudo o que você encontra nas respostas é seu sob licença CC :) Esta pergunta parece estar se perguntando sobre a coleta de exemplos.

— Tim

@ Tim, é claro, eu não estava imaginando nenhum repositório de código oculto - apenas trechos de código incluídos nas respostas. Por exemplo, alguém pode perguntar "o que é p-hacking?" E alguém pode incluir uma simulação de brinquedo R em sua resposta. Seria apropriado responder à pergunta atual com exemplos de código? "Quanto sabemos" é uma pergunta muito ampla.

— Adrian

Respostas:

RESUMO EXECUTIVO: se o "p-hacking" deve ser entendido amplamente nos caminhos de bifurcação de La Gelman, a resposta para a sua predominância é que é quase universal.

Andrew Gelman gosta de escrever sobre esse tópico e tem postado bastante sobre isso ultimamente em seu blog. Nem sempre eu concordo com ele, mas gosto da perspectiva dele sobre o $p$ hacking. Aqui está um trecho do artigo Introdução ao seu Garden of Forking Paths (Gelman & Loken 2013; uma versão apareceu no American Scientist 2014; veja também o breve comentário de Gelman sobre a declaração da ASA), com ênfase na minha:

Às vezes, esse problema é chamado de "p-hacking" ou "graus de liberdade do pesquisador" (Simmons, Nelson e Simonsohn, 2011). Em artigo recente, falamos de "expedições de pesca [...]". Mas estamos começando a achar que o termo “pesca” foi infeliz, pois evoca a imagem de um pesquisador tentando comparação após comparação, jogando a linha no lago repetidamente até que um peixe seja preso. Não temos motivos para pensar que os pesquisadores fazem isso regularmente. Achamos que a história real é que os pesquisadores podem realizar uma análise razoável, considerando suas suposições e dados, mas, se os dados forem diferentes, eles poderiam ter feito outras análises que fossem igualmente razoáveis nessas circunstâncias.

Lamentamos a difusão dos termos “pesca” e “p-hacking” (e até “graus de liberdade do pesquisador”) por duas razões: primeiro, porque quando esses termos são usados para descrever um estudo, há a implicação enganosa de que os pesquisadores estavam conscientemente tentando muitas análises diferentes em um único conjunto de dados; e, segundo, porque pode levar os pesquisadores que sabem que não realizaram muitas análises diferentes a pensar erroneamente que não estão tão fortemente sujeitos a problemas de graus de liberdade dos pesquisadores. [...] Nosso ponto principal aqui é que é possível ter múltiplas comparações de potencial, no sentido de uma análise de dados cujos detalhes são altamente contingentes aos dados, sem que o pesquisador execute qualquer procedimento consciente de pescar ou examine vários valores de p .

Então: Gelman não gosta do termo p-hacking porque implica que as pesquisas estavam trapaceando ativamente. Considerando que os problemas podem ocorrer simplesmente porque os pesquisadores escolhem qual teste executar / relatar após examinar os dados, ou seja, depois de fazer algumas análises exploratórias.

Com alguma experiência de trabalho em biologia, posso dizer com segurança que todo mundo faz isso. Todo mundo (inclusive eu) coleta alguns dados apenas com hipóteses a priori vagas, faz extensas análises exploratórias, realiza vários testes de significância, coleta mais dados, executa e executa novamente os testes e, finalmente, relata alguns valores- $p$ no manuscrito final. Tudo isso está acontecendo sem trapacear ativamente, fazer buracos na escolha de cerejas no estilo xkcd-jujubas ou conscientemente hackear qualquer coisa.

Portanto, se o "p-hacking" deve ser entendido amplamente nos caminhos de bifurcação de La Gelman, a resposta para a sua predominância é que é quase universal.

As únicas exceções que vêm à mente são estudos de replicação totalmente pré-registrados em psicologia ou ensaios médicos totalmente pré-registrados.

Evidência específica

Divertidamente, algumas pessoas consultaram pesquisadores para descobrir que muitos admitem fazer algum tipo de hacking ( John et al. 2012, Medindo a prevalência de práticas questionáveis de pesquisa com incentivos para contar a verdade ):

Além disso, todos ouviram falar da chamada "crise de replicação" na psicologia: mais da metade dos estudos recentes publicados nos principais periódicos de psicologia não se replicam ( Nosek et al. 2015, Estimando a reprodutibilidade da ciência psicológica ). (Este estudo foi publicado recentemente em todos os blogs, porque a edição de março de 2016 da Science publicou um Comentário tentando refutar Nosek et al. E também uma resposta de Nosek et al. A discussão continuou em outro lugar, ver post de Andrew Gelman e do RetractionWatch post que ele vincula. Para colocar de forma educada, a crítica não é convincente.)

Atualização em novembro de 2018: Kaplan e Irvin, 2017, a probabilidade de efeitos nulos de grandes ensaios clínicos do NHLBI aumentou ao longo do tempo, mostrando que a fração de ensaios clínicos que relatam resultados nulos aumentou de 43% para 92% após a necessidade do pré-registro:

$P$

Head et al. 2015

Não ouvi falar de Head et al. estudaram antes, mas agora passaram algum tempo pesquisando a literatura ao redor. Também dei uma breve olhada em seus dados brutos .

$p=a$ $p<a$ $0$ $0.06$

$0.0001$ $p$ $p$ $(0.045, 0.5)$ $(0.04, 0.045)$ $p$

$p=0.05$ $p=0.048$ $p=0.052$ $p$ $0.05$

E além disso, o efeito é pequeno .

$p$ $0.05$

$p$

$p=0.04$ $p=0.05$ $p$

$p$

$p$ $t$ $F$ $\chi^2$

$\hspace{5em}$

$p$ $p$

$p=0.05$ $p\approx 0.05$ $p$

Mascicampo e Lalande

$p$

Isso parece impressionante, mas Lakens 2015 ( pré-impressão ) em um Comentário publicado argumenta que isso só parece impressionante graças ao ajuste exponencial enganoso. Veja também Lakens 2015, Sobre os desafios de tirar conclusões a partir de valores-p logo abaixo de 0,05 e suas referências.

Economia

$z$ $p$

$p$ $p$ $p<0.05$

Falsamente tranquilizador?

$p$ $p$ $p$ $0.05$ $0.05$

Uri Simonsohn argumenta que isso é "falsamente tranquilizador" . Bem, na verdade ele cita esses trabalhos de forma não crítica, mas depois observa que "a maioria dos valores de p é bem menor" que 0,05. Então ele diz: "Isso é reconfortante, mas falsamente reconfortante". E aqui está o porquê:

Se quisermos saber se os pesquisadores hackearam seus resultados, precisamos examinar os valores de p associados a seus resultados, aqueles que eles podem querer hackear em primeiro lugar. As amostras, para serem imparciais, devem incluir apenas observações da população de interesse.

A maioria dos valores de p relatados na maioria dos artigos é irrelevante para o comportamento estratégico de interesse. Covariáveis, verificações de manipulação, principais efeitos em estudos que testam interações, etc. Incluindo-os, subestimamos o p-hacking e superestimamos o valor probatório dos dados. Analisar todos os valores-p faz uma pergunta diferente, menos sensata. Em vez de "Os pesquisadores atacam o que estudam?", Perguntamos "Os pesquisadores atacam tudo?"

Isso faz total sentido. Analisando todos os relatórios $p$ $p$ $p$ $p$

$p$

Conclusões

$p$ ataques , principalmente do tipo Forking-Paths que Gelman descreve; provavelmente na medida em que publicou $p$ $p$ $0.05$

— ameba
fonte

simply because the researches chose what test to perform/report after looking at the dataSim; e o problema é inevitável porque é de dois gumes. Quando um método melhor está sendo escolhido para os dados - é um ajuste excessivo dessa amostra específica ou uma reunião de solicitações técnicas dessa população? Ou - removendo outliers - está fingindo ou recuperando a população? Quem dirá, afinal?

— ttnphns

O tipo de resposta que eu mais esperava era talvez uma breve representação da literatura atual, algumas dicas sobre se o artigo de Head et al é um resumo justo dos pensamentos mais recentes etc. Não esperava essa resposta. Mas acho ótimo, e os pensamentos de Gelman e as idéias práticas são particularmente úteis. Quando escrevi a pergunta, eu tinha coisas semelhantes em mente a @ttnphns (talvez isso mostre, eu até considerei incluir a palavra "sobreajuste".)

— Silverfish

No entanto, além do mal-estar geral e inevitável de "como a ciência funciona na prática" é uma correspondência imperfeita para as suposições dos testes estatísticos, eu me pergunto se esse "bicho-papão" arte escura dos p-hackers mal-intencionados está realmente lá fora, e Nesse caso, até onde chega. Definitivamente, existem fortes (des) incentivos para incentivá-lo.

— Silverfish

Você me deixou curioso com este Head et al. paper, @Silverfish, então devo confessar que agora, em vez de trabalhar, estou navegando em alguns artigos que criticam os resultados de Head et al. e até já baixei seus dados brutos ... Oh, que coisa.

— ameba

+1. O artigo mais recente do blog Gelman ( andrewgelman.com/2016/03/09/… ) abrange muito terreno e destaca uma tréplica interessante de um grupo que tentou replicar e foi fortemente criticado pelos autores do estudo original: retractionwatch.com/ 07/03/2016 /…

— Wayne

Os gráficos de funil foram uma inovação estatística tremenda que virou metanálise de cabeça para baixo. Basicamente, um gráfico de funil mostra a significância clínica e estatística no mesmo gráfico. Idealmente, eles formariam uma forma de funil. No entanto, várias metanálises produziram gráficos de funil que mostram uma forte forma bimodal, em que os pesquisadores (ou editores) reteram seletivamente os resultados nulos. O resultado é que o triângulo se torna mais amplo, porque estudos menores e menos potentes usavam métodos mais drásticos para "incentivar" os resultados a alcançar significância estatística. A equipe do Relatório Cochrane tem isso a dizer sobre eles .

Se houver viés, por exemplo, porque estudos menores sem efeitos estatisticamente significativos (mostrados como círculos abertos na Figura 10.4.a, Painel A) permanecem não publicados, isso levará a uma aparência assimétrica do gráfico de funil com uma lacuna no canto inferior da tela. o gráfico (painel B). Nesta situação, o efeito calculado em uma meta-análise tenderá a superestimar o efeito da intervenção (Egger 1997a, Villar 1997). Quanto mais pronunciada a assimetria, maior a probabilidade de que a quantidade de viés seja substancial.

O primeiro gráfico mostra um gráfico simétrico na ausência de viés. O segundo mostra um gráfico assimétrico na presença de viés de relato. O terceiro mostra um gráfico assimétrico na presença de viés, porque alguns estudos menores (círculos abertos) são de menor qualidade metodológica e, portanto, produzem estimativas exageradas de efeitos de intervenção.

Eu suspeito que a maioria dos autores não tem conhecimento dos métodos que eles usam para p-hackear. Eles não acompanham o número geral de modelos em que se encaixam, aplicando critérios de exclusão diferentes ou optando por variáveis de ajuste diferentes a cada vez. No entanto, se eu tivesse que ordenar um processo simples, adoraria ver o número total de modelos adequado. Isso não quer dizer que possa haver razões legítimas para executar novamente os modelos, por exemplo, acabamos de realizar uma análise de Alzheimer sem saber que ApoE havia sido coletado na amostra. Ovo na minha cara, nós reranamos os modelos.

— AdamO
fonte

\approx

$\approx$

Um aspecto da minha pergunta foi a distinção entre "p-hacking" e "viés de publicação" - essa resposta, de certa forma, conflita os dois. Eu teria razão em interpretar o que você está dizendo dessa maneira, ou seja, "o viés de publicação é, em essência, uma forma de p-hacking, mas pelo editor"?

— Silverfish

p

$p$

p

$p$

Hmm. Primeiro, eu queria protestar e afirmar que o viés de publicação é diferente do p-hacking (da mesma forma, eu acho, de como o @Silverfish também estruturou seu Q), mas depois percebi que é mais complicado traçar o limite do que eu pensava inicialmente. Executar múltiplas comparações no estilo jelly-beans e reportar apenas as significativas (p-hacking?) Não é muito diferente de executar vários estudos e apenas relatar estudos significativos (que é o viés de publicação por definição). Ainda assim, p-hacking no sentido de massagear os dados até que eles produzam p <0,05 me parece suficientemente diferente.

— Ameba

@amoeba Eu tinha a mesma preocupação, mas depois de ler a pergunta do OP, percebi que se tratava das consequências de

p

$p$

p

$p$

Quanto sabemos sobre o p-hacking "in the wild"?

Evidência específica

PPP

Head et al. 2015

ppp

Mascicampo e Lalande

Economia

Falsamente tranquilizador?

Conclusões

$P$

$p$