Exemplos de consequências caras do uso inadequado de ferramentas estatísticas


12

Eu suspeito que a maioria dos usuários de ferramentas estatísticas são usuários auxiliares (pessoas que tiveram pouco ou nenhum treinamento formal em estatística). É muito tentador para pesquisadores e outros profissionais aplicar métodos estatísticos a seus dados simplesmente porque eles já o viram "feito antes" em artigos revisados ​​por pares, literatura cinzenta, web ou em uma conferência. No entanto, fazê-lo sem uma compreensão clara das suposições necessárias e das limitações da ferramenta estatística pode levar a resultados errôneos - erros geralmente não reconhecidos!

Acho que os estudantes de graduação (particularmente nas ciências sociais e naturais) desconhecem as armadilhas estatísticas ou consideram essas armadilhas inconseqüentes (sendo o último na maioria das vezes). Embora exemplos de uso indevido de ferramentas estatísticas possam ser encontrados em muitos livros de texto de nível introdutório, na Web ou no StackExchange, é difícil encontrar exemplos do mundo real que tiveram resultados prejudiciais (por exemplo, custo em US $, vidas afetadas e carreiras perdidas) . Para esse fim, estou procurando exemplos do mundo real que destacam o uso indevido de métodos estatísticos para os quais:

  1. os métodos estatísticos utilizados são normalmente abordados nos cursos introdutórios de estatísticas (ou seja, estatísticas inferenciais, regressões, etc.)
  2. o resultado final teve consequências onerosas (dólares perdidos, vidas afetadas, carreiras destruídas etc.)
  3. os dados estão prontamente disponíveis para serem usados ​​como exemplos de trabalho em um curso (o objetivo é fazer com que os alunos trabalhem com exemplos do mundo real que tiveram consequências no mundo real).

Um exemplo não estatístico que eu gosto de trazer para os alunos quando discutem a importância de definir corretamente as unidades em um projeto de pesquisa é o “acidente métrico” que levou à perda de um satélite de US $ 125 milhões! Isso geralmente invoca um fator: -o dos alunos e parece ter uma impressão duradoura (pelo menos durante toda a sua curta vida acadêmica).


2
Outro exemplo não estatístico de Edward Tufte, o Powerpoint faz Rocket Science . Embora esteja um pouco mais relacionado à progressão lógica do pensamento estatístico em geral do que o incidente métrico mencionado. Você também está familiarizado com este livro, O Culto da Importância Estatística ?
21711 Andy

@ Andy, eu não estou familiarizado com "O Culto da Significância Estatística". Você sabe se os elementos 2 / e 3 / na minha pergunta são abordados nesse livro?
MannyG

Eu não sei sobre 3, mas se você ler a resenha do livro, eu o vinculei, responderia à sua pergunta 2 (ou leria o título restante do livro!) De fato, o livro inteiro pretende ser sobre a sua pergunta nº 2 em referência para interpretar testes de significância.
21711 Andy As

@ AndyW, esse é o livro que eu ia mencionar.
Peter Flom - Restabelece Monica

@ AndyW, embora a resenha que você vincula faça referência a um dos exemplos reais do livro de uso indevido de estatísticas, não está claro para mim se o custo consequente é abordado. Se os custos conseqüentes são abordados no livro, eles são baseados em análises independentes ou na opinião subjetiva dos autores?
MannyG

Respostas:


8

Não tenho certeza sobre a disponibilidade dos dados, mas um ótimo exemplo (se essa é a palavra certa) de estatísticas ruins é o Estudo das Enfermeiras de Harvard sobre a eficácia da terapia de reposição hormonal (TRH) em mulheres na menopausa.

Qual é a ideia geral? O Estudo das Enfermeiras sugeriu que a TRH era benéfica para as mulheres na pós-menopausa. Acontece que esse resultado surgiu porque o grupo controle era muito diferente do grupo de tratamento e essas diferenças não foram explicadas na análise. Em estudos randomizados subsequentes, a TRH foi associada a câncer, ataque cardíaco, derrame e coágulos sanguíneos. Com as correções apropriadas, o estudo dos enfermeiros também revela esses padrões.

Não consigo encontrar estimativas de mortes nos EUA relacionadas à TRH, mas a magnitude foi de dezenas de milhares. Um artigo vincula 1000 mortes no Reino Unido à HRT.

Este artigo da New York Times Magazine fornece um bom histórico estatístico dos problemas de confusão presentes no estudo.

Há uma discussão acadêmica nesta edição do American Journal of Epidemiology. Os artigos comparam os resultados do estudo das Enfermeiras observacionais aos da Women's Health Initiative, com base em ensaios randomizados.

Também há discussão (por muitos dos mesmos indivíduos) em uma edição da Biometrics. Veja o comentário de Freedman e Petitti em particular [ versão pré-pub ].


1
Eu argumentaria contra o uso deste exemplo, na verdade. Há mais trabalho desde 2005, especialmente por Miguel Hernan, consulte Estudos observacionais analisados ​​como experimentos randomizados: uma aplicação à terapia hormonal na pós-menopausa e doença cardíaca coronária , Epidemiology (2008). A conclusão: "Em resumo, nossas descobertas sugerem que as discrepâncias entre as estimativas ITT do WHI e do NHS podem ser amplamente explicadas por diferenças na distribuição do tempo desde a menopausa e no período de acompanhamento. Confundimento residual para o efeito do início da terapia no O NHS parece ter pouco papel ".
Fomite 19/10/11

Independentemente de como se sente em relação a esses estudos, as diferenças entre eles são mais complicadas e complicadas do que o que é provavelmente útil no cenário proposto pelo OP.
Fomite 19/10/11

@ EpiGrad, esse certamente não é o meu campo e tenho certeza de que você sabe mais sobre esse exemplo específico do que eu. Mas acho que o artigo que você cita faz questão de ressaltar os outros artigos. No artigo da OSALRE, eles expulsam mulheres do estudo do NHS que não atendem aos critérios do estudo WHI. A proporção de mulheres descartadas deve variar entre os grupos de tratamento e controle do NHS (ou os resultados não mudariam). Eles estão desfazendo o problema de seleção encontrado no estudo do NHS. [[Continuação]]
Charlie

1
O artigo de que gostei sugere, pelo menos para mim, algo mais parecido com "Verifique se você está fazendo a mesma pergunta", em vez de um problema de confusão total. Não me interpretem mal, a questão do NHS / WHI é extremamente interessante como uma questão de prática estatística e de saúde pública. É apenas mais complexo do que o desacordo inicial parece sugerir, e acho que o torna um pouco inadequado para o ponto 1 da solicitação do OP. O ponto 3 também está certo.
Fomite 19/10/11

2
@EpiGrad, bastante justo. Mas duvido seriamente que você encontre um estudo que tenha um erro estatístico flagrante que não exija alguma pesquisa para entender que teve conseqüências substanciais e difundidas. Talvez outros entrevistados matem meu otimismo nos pesquisadores (heh).
Charlie

8

Um exemplo histórico maravilhoso é proporcionado pela publicação de 1933 de Triumph of Mediocrity in Business, de Horace Secrist . Na época, Secrist era um estatístico bem estabelecido, autor de um livro didático (c. 1919, eu me lembro), bem conectado na American Statistical Association e chefe de um grupo de pesquisa estatística na Northwestern University. Ele e sua equipe passaram a década anterior compilando séries temporais de dados comerciais, que são reproduzidos e analisados ​​minuciosamente no livro. Era para ser um chef d'oeuvre por um estatístico ambicioso.

A resenha do livro de Harold Hotelling , publicada no JASA no final daquele ano, apontou que o Secrist havia apenas documentado centenas de exemplos de regressão à média (um tópico fundamental em qualquer curso introdutório de estatística hoje, ponto 1 da pergunta). Secrist objetou em uma resposta publicada. A resposta de Hotelling a isso é um clássico:

"Provar" esse resultado matemático por um estudo numérico dispendioso e prolongado ... é análogo a provar a tabuada de multiplicação organizando os elefantes em linhas e colunas e fazendo o mesmo para vários outros tipos de animais. A performance, embora talvez divertida e com certo valor pedagógico, não é uma contribuição importante nem para a zoologia nem para a matemática.

[JASA v. 29 # 186, junho de 1934, p. 199.]

Secrist parece ter desaparecido rapidamente da cena estatística logo depois disso ("carreiras arruinadas", ponto 2 da pergunta). O livro dele ainda está disponível. (Alguns anos atrás, obtive uma cópia limpa e agradável, obviamente pouco lida, através do Empréstimo entre bibliotecas.) Dela, é possível extrair qualquer número de conjuntos de dados de exemplo (ponto 3 da pergunta).

Steven Stigler relata esta história em um livro e um artigo, A história da estatística em 1933 .


4

Parece-me que a opinião da Wired sobre a quebra da bolsa de 2008 pode ser um exemplo informativo. Não posso comentar se as conclusões estão corretas ou não, mas a ideia de usar correlações sobre dados que não são uma amostra representativa parece algo que pode ser apropriado às circunstâncias que você sugere. Também é atual e, portanto, pode mantê-los interessados.


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.