Falácia do atirador de elite do Texas na análise exploratória de dados

23

Eu estava lendo este artigo na Nature, no qual algumas falácias são explicadas no contexto da análise de dados. Percebi que a falácia do atirador de elite do Texas era particularmente difícil de evitar:

Uma armadilha cognitiva que aguarda durante a análise dos dados é ilustrada pela fábula do atirador de elite do Texas: um atirador inepto que dispara um padrão aleatório de balas ao lado de um celeiro, desenha um alvo em torno do maior grupo de buracos de bala e aponta orgulhosamente para o sucesso dele.

Seu alvo é obviamente risível - mas a falácia não é tão óbvia para os jogadores que acreditam em uma 'mão quente' quando têm uma série de vitórias, ou para pessoas que vêem um significado sobrenatural quando um sorteio aparece como todos os números ímpares.

Nem sempre é óbvio para os pesquisadores. "Você apenas recebe algum incentivo com os dados e depois pensa: bem, esse é o caminho a seguir", diz Pashler. “Você não percebe que tinha 27 opções diferentes e escolheu a que lhe deu os resultados mais agradáveis ou interessantes, e agora está envolvido em algo que não é de modo algum uma representação imparcial dos dados. "

Eu acho que esse tipo de trabalho de exploração é comum e, muitas vezes, hipóteses são construídas com base nessa parte da análise. Existe uma abordagem completa ( EDA ) dedicada a esse processo:

A análise exploratória dos dados foi promovida por John Tukey para incentivar estatísticos a explorá-los e, possivelmente, formular hipóteses que poderiam levar a novas coletas e experimentos de dados.

Parece que qualquer processo exploratório realizado sem uma hipótese prévia é propenso a gerar hipóteses falsas.

Observe que a descrição da EDA acima realmente fala sobre new data collection and experiments. Entendo que, após a coleta de novos dados, uma análise de dados confirmatória (CDA) é apropriada. No entanto, não acho que essa distinção seja feita com muita clareza e, embora uma separação entre EDA e CDA seja ideal, certamente há algumas circunstâncias em que isso não é viável. Eu diria que seguir essa separação estritamente é incomum e a maioria dos profissionais não subscreve o paradigma da EDA.

Portanto, minha pergunta é: a EDA (ou qualquer processo informal de exploração de dados) aumenta a probabilidade de cair na falácia do atirador de elite do Texas?

eda fallacy

— Robert Smith
fonte

3

Não sei exatamente o que você quer dizer com "hipótese espúria". O espírito da análise exploratória de dados é examinar os dados e estar aberto a uma variedade de padrões, incluindo padrões que você não esperava. Nem menos e nem muito mais. Nada na análise exploratória de dados garante boas idéias e nada exclui ou permite dispensar o pensamento crítico ou vincular o que você faz à ciência subjacente (sentido amplo). Portanto, há algum risco aqui de criticar a EDA por coisas que ninguém experimentou nega. ou ninguém suporta.

— Nick Cox

3

O mais difícil de aprender e ensinar na EDA é exatamente o que os testes de significância devem ajudar (nas contas mais otimistas): adquirir o hábito de não interpretar demais os detalhes nos dados que não são importantes o suficiente para merecer atenção. . Eu argumentaria que muitas contas da EDA não pressionam suficientemente a idéia de que, para que um padrão seja levado a sério, ele deve ser identificável em diferentes conjuntos de dados, mas essa negligência é comum na ciência estatística.

— Nick Cox

1

Obrigado. O problema é que gerar muitas hipóteses e testá-las no mesmo conjunto de dados é realmente perigoso, porque é provável que você confirme uma delas, mesmo que seja falsa. Como o Creosote descreve, seria necessária uma correção nos valores de p. Infelizmente, nunca vi isso na prática.

— Robert Smith

2

De aprender (francês) EDA no início dos anos 1980, eu tenho a impressão de que era realmente muito mais fácil para dobrar a sua análise para a conclusão pretendida (s) do que com uma estrutura estatística mais forte ...

— Xi'an

12

Se alguém vê o papel da EDA estritamente como gerador de hipóteses, então não se aplica a falácia do atirador de elite. No entanto, é muito importante que os ensaios confirmatórios subsequentes sejam realmente independentes. Muitos pesquisadores tentam "reconciliar diferenças" com coisas como análises agrupadas, metanálises e métodos bayesianos. Isso significa que pelo menos algumas das evidências apresentadas nessa análise incluem "o círculo ao redor dos buracos de bala aleatórios".

— AdamO
fonte

5

Exatamente. O problema com tanta análise exploratória de dados é que o mesmo conjunto é usado para treinamento (identificação de onde as balas pousaram) e teste (desenho do círculo em torno delas).

— Michael K

11

Isso mostra uma visão muito negativa da análise exploratória de dados. Embora o argumento não esteja errado, está realmente dizendo "o que pode dar errado quando eu uso uma ferramenta muito importante da maneira errada?"

Aceitar valores de p não ajustados dos métodos EDA levará a taxas de erro do tipo I muito infladas. Mas acho que Tukey não ficaria feliz com alguém fazendo isso. O objetivo da EDA não é tirar conclusões definitivas sobre as relações nos dados, mas buscar novas relações potenciais nos dados para acompanhamento.

Deixar esta etapa no processo científico mais amplo é essencialmente prejudicar a ciência para nunca conseguir encontrar novos aspectos interessantes de nossos dados, fora da dedução lógica pura. Já tentou deduzir logicamente como a super expressão de um conjunto de genes afetará a sobrevivência de uma célula? Dica: não é muito fácil (uma das nossas piadas favoritas entre a equipe de bioinformática no meu trabalho foi quando um físico perguntou: "Por que você simplesmente não simula as propriedades físicas de diferentes interações genéticas? É um espaço de parâmetros finitos").

Pessoalmente, acho que a confusão sobre isso pode levar a uma grande desaceleração no progresso científico. Conheço muitos pesquisadores não estatísticos que afirmam que não desejam executar procedimentos da EDA com dados preliminares , porque "sabem que a EDA pode ser ruim".

Em conclusão, é absolutamente verdade que usar os métodos da EDA e tratá-los como métodos de análise de dados confirmatórios levará a resultados inválidos. No entanto, a falta de uso adequado da EDA pode levar a quase nenhum resultado.

— Cliff AB
fonte

Obrigado. Eu não me preocuparia muito em ter poucas pessoas envolvidas em algum tipo de análise exploratória. Eu acho o oposto verdade; muitas pessoas estão fazendo esse trabalho exploratório, mas provavelmente sem tomar as devidas precauções para evitar erros do tipo I, como você descreveu. No entanto, é interessante que você conheça pessoas que têm uma opinião negativa sobre a EDA. Se eles não querem fazê-lo com dados preliminares, quando se sentem à vontade para trabalhar com a EDA (ou semelhante à EDA)?

— Robert Smith

Minha experiência é que pesquisadores não estatísticos estão acostumados a ouvir "comparações múltiplas são problemáticas" e, portanto, quando eles me procuram com dados, estão ansiosos para dizer que querem evitar fazer comparações múltiplas, mesmo com dados preliminares. Obviamente, uma compreensão mais completa do problema seria que você deseja evitar várias comparações em um estudo da CDA.

— Cliff AB

Compreendo. Isso faz mais sentido.

— Robert Smith

5

Parece que qualquer processo exploratório realizado sem uma hipótese prévia é propenso a gerar hipóteses falsas.

Eu temperaria essa afirmação e a expressaria de maneira um pouco diferente: a escolha de uma hipótese a ser testada com base nos dados prejudica o teste se alguém não usar a hipótese nula correta. O ponto principal do artigo da Nature é, essencialmente, que é fácil para os analistas se enganarem, ignorando todas as múltiplas comparações que estão implicitamente fazendo durante a exploração.

A natureza cita Andrew Gelman, mas não menciona seu artigo com Eric Loken sobre esse assunto. Um trecho:

Quando críticas de múltiplas comparações são apresentadas em relação a alguns dos artigos que discutimos aqui, os pesquisadores nunca respondem que escolheram todos os detalhes de seu processamento e análise de dados com antecedência; em vez disso, afirmam ter escolhido apenas uma análise para os dados específicos que viram . Por mais intuitiva que essa defesa possa parecer, ela não trata da preocupação freqüentista fundamental de múltiplas comparações.

Outro:

Não é que os pesquisadores tenham realizado centenas de comparações diferentes e escolhidas que sejam estatisticamente significativas. Em vez disso, eles começam com uma idéia um pouco formada sobre a comparação a ser realizada e refinam essa ideia à luz dos dados. Eles viram um padrão em vermelho e rosa e combinaram as cores.

Sucintamente:

Existe um mapeamento de um para muitos, de hipóteses científicas a estatísticas.

E mais uma, ênfase minha:

Em todos os casos que discutimos, a análise publicada tem uma história consistente com as hipóteses científicas que motivaram o trabalho, mas outros padrões de dados (que, dados os tamanhos das amostras, poderiam facilmente ter ocorrido por acaso) levariam naturalmente a análises de dados diferentes (por exemplo, um foco nos efeitos principais em vez de interações, ou uma escolha diferente de subconjuntos de dados para comparar) que igualmente poderiam ter sido usados para apoiar as hipóteses de pesquisa. O resultado permanece, como já escrevemos em outro artigo, uma espécie de máquina para produzir e divulgar padrões aleatórios.

Em suma, não é que a EDA leve a uma "hipótese espúria"; é que testar uma hipótese com o mesmo conjunto de dados que a levou a conclusões pode levar a conclusões falsas.

Se você estiver interessado em superar esse obstáculo, Gelman tem outro artigo argumentando que muitos desses problemas desaparecem em uma estrutura bayesiana, e o artigo com Loken faz referência à "replicação pré-publicação", como descrito anedoticamente na primeira seção deste artigo .

— Sean Easter
fonte

Obrigado. Muito interessante. Vou dar uma olhada no artigo de Gelman em várias comparações.

— Robert Smith

3

Quase por definição, sim, é claro que a EDA sem CDA atrai atiradores de elite do Texas.

$p$ $p$

— Creosote
fonte

Obrigado. Sim, seria necessária uma correção. Não acho que levar isso em conta seja muito comum.

— Robert Smith

3

Apenas para acrescentar às já excelentes respostas: existe um meio termo entre um CDA completo e apenas a aceitação dos resultados da EDA pelo valor nominal. Depois de encontrar um possível recurso de interesse (ou hipótese), você pode ter uma noção de sua robustez executando simulações de validação cruzada (CV) ou de autoinicialização. Se suas descobertas dependerem apenas de algumas observações importantes, o CV ou o Bootstrap mostrará que muitas das amostras de dobras (CV) ou boostrap não conseguem reproduzir o recurso observado.

Esse não é um método infalível, mas é uma boa verificação intermediária antes de optar por um CDA completo (ou propositalmente segurando um "conjunto de validação" do seu conjunto de dados inicial).

0

O critério mais rigoroso para a seleção de modelos de dados é o grau em que se aproxima a Complexidade Kolmogorov dos dados - ou seja, o grau em que os dados são compactados sem perdas. Em teoria, isso pode resultar apenas da análise exploratória dos dados.

Consulte " Deconvolução causal por modelos gerativos algorítmicos "

— James Bowery
fonte