Estratégias para a introdução de estatísticas avançadas em vários públicos


26

Trabalho principalmente com não estatísticos em áreas como medicina, ciências sociais e educação.

Seja consultando estudantes de pós-graduação, ajudando pesquisadores com artigos ou revisando artigos para periódicos, geralmente tenho o problema de que alguém (cliente, autor, comitê de dissertação, editor de periódico) queira usar alguma técnica relativamente conhecida quando ela é totalmente inadequados ou quando existem métodos melhores, mas menos conhecidos. Muitas vezes, explicarei a técnica alternativa, mas depois me dirão "todo mundo faz o contrário".

Eu estaria interessado em saber como os outros lidam com esse tipo de dificuldade.

ADITIVOS

@MichaelChernick sugeriu que eu pudesse compartilhar algumas histórias, então vou

Atualmente, estou trabalhando com uma pessoa que está duplicando um artigo anterior e adicionando uma variável independente para ver se isso ajuda. O artigo anterior é, francamente, terrível. Ele trata dados dependentes como se fossem independentes; é tremendamente superestimado e há outros problemas também. No entanto, ele (meu cliente) enviou uma versão anterior como dissertação e não apenas obteve seu diploma, mas foi amplamente elogiado pela pesquisa.

Muitas vezes tentei convencer as pessoas a não dicotomizar variáveis. Isso ocorre com muita frequência na medicina. Pacientemente, aponto que dicootomizar (digamos) o peso ao nascer para baixo e normal (geralmente a 2.500 g) significa tratar um bebê de 2.499 g como exatamente um de 1.400 g; mas tratando o bebê de 2.550 gramas de maneira bem diferente. O clínico concorda comigo que isso é bobagem. Então diz para fazê-lo dessa maneira.

Há muito tempo, tive um cliente de estudante de graduação cujo comitê insistia em uma análise de cluster. O aluno não entendeu o método, o método não respondeu a perguntas úteis, mas era isso que o comitê queria, e foi o que conseguiu.

Todo o campo dos gráficos estatísticos é aquele em que, para muitos, "é assim que o vovô fez" é suficiente.

Depois, há pessoas que parecem apenas apertar botões. Lembro-me de uma apresentação (não de alguém que ajudei!) Que havia tomado um questionário inteiro e analisado o fator. Uma das variáveis ​​que ela incluiu foi o número de identificação!

Oi.


6
Peter, Meta é para perguntas sobre este site. Suspeito que você esteja pensando no status de "Community Wiki", que é útil para perguntas interessantes que provavelmente não terão uma resposta objetivamente melhor (ou que provavelmente precisarão de esforços colaborativos para responder). Por conseguinte, interpretei sua sugestão como uma solicitação da CW e a implementei.
whuber

11
Uma observação rápida sobre dicotomização: Na verdade, acho que essa é uma intuição equivocada de pessoas que conhecem "um pouco" de estatísticas. Nos campos de que você fala, eu imagino que muitas análises seriam voltadas para a tomada de decisões (por exemplo, devo iniciar o tratamento para a doença X ou Y?). Isso é dicotômico - e muitas vezes uma dicotomia útil. Se você tiver apenas um pequeno número de variáveis, uma análise de decisão ou teste de hipótese adequado poderá imitar isso - podemos ter "se x> 10 fizer a opção 1, caso contrário, a opção 2".
probabilityislogic

11
Também é muito fácil lembrar uma análise baseada em variáveis ​​dicotomizadas se você não tem acesso a um computador.
probabilityislogic

2
Na psicologia, as pessoas geralmente dicotomizam ou quantizam porque usam ANOVA, não regressão. Isso me deixa louco. Em algum lugar no wiki de estatísticas da Vanderbilt, biostat.mc.vanderbilt.edu/wiki/Principal, há uma demonstração brilhante do terrível dano causado pela dicotomização. Mas não consigo encontrá-lo, infelizmente. Eu acho que está lá, de qualquer maneira. Deveria ter anotado quando tive a chance #
Chris Beeley 4/12/12

2
Pela minha experiência limitada no setor de seguros, descobri que, uma vez desenvolvido um modelo preditivo específico, ele tem vida própria e continuará sendo duplicado (talvez com coeficientes atualizados) por anos, mesmo depois que o modelo se tornar desatualizado. Por exemplo, renovar um modelo antigo de que as taxas de política conjuntos de seguro de saúde é um grande negócio desde que as taxas de algumas pessoas pode de repente saltar para cima, o novo modelo terá que ser justificada às agências reguladoras, etc.
robertf

Respostas:


16

Esta é uma pergunta complicada!

Primeiro, algumas reflexões sobre por que isso acontece. Trabalho em uma área que (ou pelo menos deveria ) faz uso extensivo de estatística, mas onde a maioria dos profissionais não é especialista em estatística. Consequentemente, vemos muitos "Coloquei um vetor na função de teste t do Excel e esse número caiu. Portanto, meu trabalho é suportado por estatísticas".

A principal razão que vejo para isso acontecer é que a falta de conhecimento estatístico começa no topo. Se seus revisores e comitê de tese não se mantiverem atualizados sobre as técnicas estatísticas, será necessário justificar o uso de algo que não seja "convencional". Por exemplo, em uma tese, optei por usar gráficos de violino em vez de gráficos de caixa para mostrar o formato de uma distribuição. O uso dessa técnica exigiu extensa documentação na tese, além de uma discussão prolongada em minha defesa, onde todos os membros do comitê queriam saber o que essa estranha trama significava, apesar das descrições no texto e das referências ao material de origem . Se eu tivesse acabado de usar um gráfico de caixa (que mostra estritamente menos informações neste caso e pode enganar facilmente o espectador sobre a forma de uma distribuição, se for multimodal) ninguém teria dito nada, e minha defesa teria sido mais fácil.

O ponto é que, em campos não estatísticos, os profissionais enfrentam uma escolha difícil: podemos ler sobre e depois usar os métodos corretos , o que implica um monte de trabalho em que nenhum de nossos superiores está interessado; ou podemos simplesmente seguir o fluxo, obter o carimbo de borracha em nossos papéis e teses e continuar usando métodos incorretos, mas convencionais .

Agora respondendo à sua questão:

Eu acho que uma boa abordagem é enfatizar as consequências de não usar as técnicas corretas. Isso pode implicar:

  • Dando um exemplo do mundo real de como alguém em seu campo experimentou as consequências de uma inferência fraca. Isso é mais fácil em alguns campos do que em outros. Exemplos de carreiras prejudicadas são especialmente bons.

  • Explicar que fazer análises incorretas pode deixá-lo em uma situação em que seus resultados dificilmente serão transferidos para o mundo real, o que poderia causar danos (por exemplo, no meu campo, se o protótipo do seu sistema de IA parecer estatisticamente melhor que a concorrência, mas de fato é da mesma forma, passar os próximos 6 meses construindo uma implementação completa é uma péssima ideia.

  • Escolha técnicas que economizem muito tempo aos usuários. Tempo suficiente para que eles possam gastar o que economizam, explicando as técnicas aos superiores.


11
Boa discussão e boa resposta +1.
Michael R. Chernick

Bons pontos @John
Peter Flom - Restabelece Monica

11
+1 por apontar as consequências. Pode fazer maravilhas para levar as pessoas a mudarem para métodos melhores.
Leo

9

Falando da perspectiva de um psicólogo com apenas uma ligeira sofisticação estatística: Ao introduzir o método, também introduza as ferramentas. Se você contar à maioria dos pesquisadores do meu campo uma longa história sobre um ótimo método novo, eles passarão o tempo todo preocupados com o argumento final "e tudo o que você precisa fazer é aperfeiçoar seu cálculo diferencial e fazer dois curso de treinamento semanal! " (ou "e compre um pacote de estatísticas de US $ 2000!" ou "e adapte 5000 linhas de código Python e R!"). Considerando que, se houver uma implementação do método disponível no pacote de estatísticas que eles já usam, ou em um software livre com uma GUI compreensível, e eles puderem se familiarizar com isso em um dia ou dois, eles podem estar dispostos a dar uma tentativa.

Estou ciente de que essa abordagem pode parecer venal e não científica, mas é fácil as pessoas se envolverem quando estão preocupadas com doações e publicações, e não vêem o aprendizado de grandes quantidades de matemática com a probabilidade de ajudá-las a manter seus empregos.


2
@octem O pesquisador não pôde confiar no estatístico para fazer essa parte da colaboração. Por que o investigador precisa da ferramenta. Eu comparo isso com o médico a inverter a tabela. Como ele se sentiria se eu dissesse, me dê um tutorial rápido sobre como fazer essa cirurgia e eu vou fazer isso por você. Eu acho chocado e depreciativo e é ilegal para mim praticar mewdicine sem licença. Provavelmente isso é uma coisa boa. Mas o estatístico não merece respeito igual. Por que esperar que eu possa simplesmente dar a ele a ferramenta e deixá-lo escapar com sua falta de treinamento.
Michael R. Chernick 2/12/12

2
Na psicologia social, não é comum ter um estatístico (porque não é comum ter fundos suficientes para pagar um estatístico). Agora estou em saúde pública / psicologia da saúde. As grandes doações geralmente incluem salário para um estatístico, mas muito do nosso trabalho é feito em pequenas e avulsas doações para pilotos, nas quais nem sequer podemos pagar o salário para o PI. É dessa perspectiva que venho ... se você estiver em um campo em que a maioria dos projetos inclui um estatístico treinado, concordo que esse tipo de resistência não seria razoável.
octern

11
@temp Obrigado pela resposta. Apenas para acompanhar a analogia. Houve um tempo em que o aborto era ilegal nos EUA e algumas mulheres foram para outros países ou o fizeram ilegalmente em um quarto dos fundos, sem condições estéreis e grandes riscos à saúde. Pode não parecer uma ótima analogia, mas não poder pagar um estatístico justifica fazer um trabalho inferior? Eu sei que a medicina é mais uma coisa da vida ou da morte, mas a ciência ruim também tem consequências ruins? O uso indevido de dados pode levar à prática de medicamentos ruins, porque um medicamento inseguro é usado quando não deveria.
Michael R. Chernick

@ MichaelChernick Olha, eu também não estou feliz com o estado da análise estatística nas ciências sociais. Mas a questão era como convencer os pesquisadores a adotar uma nova abordagem estatística, e eu estou dando uma resposta que é apropriada para uma grande subpopulação de pesquisadores - gostemos ou não.
octern

11
@temtem bastante e acho que entendi isso. Eu te dei uma votação antes de fazer a pergunta. A atitude dos investigadores de pensar que o caminho mais barato é o caminho a seguir é o que estou questionando e não o fato de você reconhecer que o problema existe. Sim e eu concordo com você lá. Mas, de alguma forma, a longo prazo, acho que precisamos apenas ter mais respeito e reconhecimento de que nosso trabalho não é trivial.
Michael R. Chernick

6

Obrigado por esta bela pergunta, Peter. Eu trabalho em uma instituição de pesquisa médica e lido com médicos que pesquisam e publicam nas revistas médicas. Muitas vezes, eles estão mais interessados ​​em publicar seu trabalho do que em "fazer as estatísticas completamente corretas". Então, quando eu proponho uma técnica não familiar, eles apontarão para um artigo semelhante e dirão "veja, eles fizeram dessa maneira e obtiveram seus resultados publicados".

Acho que há um problema quando o artigo publicado é muito ruim e com erros. É difícil argumentar, embora eu tenha uma grande reputação. Alguns documentos têm grandes egos e pensam que podem aprender quase tudo. Então eles pensam que entendem as estatísticas quando não o fazem e podem ser insistentes. Pode ser frustrante. Quando está em teste e Wilcoxon é mais apropriado, convido-os a fazer um teste de Wilk Shapiro e, se a normalidade for rejeitada, incluímos os dois métodos e explicamos por que o Wilcoxon é melhor. Às vezes, posso convencê-los e, muitas vezes, eles dependem de mim para estatísticas, por isso tenho um pouco mais de influência do que um consultor geral pode ter.

Também encontrei uma situação em que fiz as curvas de Kaplan-Meier e usamos o teste de log rank, mas Wilcoxon apresentou um resultado diferente. Foi difícil para mim decidir e, em tais situações, acho melhor apresentar os dois métodos e explicar por que eles diferem. O mesmo vale para o uso de intervalos de confiança entre Peto e Greenwood na curva de sobrevivência. Explicar a suposição de risco da proporção de Cox pode ser difícil e eles muitas vezes interpretam mal as razões de chances e o risco relativo.

Não existe uma resposta simples. Eu tinha um chefe aqui que era um dos principais pesquisadores médicos em cardiologia e, às vezes, é árbitro de revistas. Ele estava olhando para um artigo que tratava do diagnóstico e usava a AUC como medida. Ele nunca tinha visto uma curva da AUC antes e veio até mim para ver se eu achava que era válida. Ele tinha dúvidas. Acabou sendo apropriado e expliquei a ele o melhor que pude.

Tentei fazer palestras sobre bioestatística para médicos e lecionei bioestatística em escolas de saúde pública. tento fazê-lo melhor do que outros e produzi um livro para o curso introdutório em ciências da saúde em 2002, com um epidemiologista como co-autor. Wiley quer que eu faça uma segunda edição agora. Em 2011, publiquei um livro mais conciso que tentei abordar apenas o essencial, para que médicos ocupados levassem algum tempo para utilizá-lo e consultá-lo. É assim que eu lido com isso. Talvez você possa compartilhar suas histórias conosco.


Estes são bons pontos @ Michael. Vou acrescentar algumas histórias
Peter Flom - Restabelecer Monica

11
@ PeterFlom Acho que podemos ter experiências muito semelhantes. Eu também acho que você está recebendo outras respostas muito boas nas respostas de outras pessoas.
Michael R. Chernick

6

Existem alguns bons comentários já feitos aqui, mas vou colocar meus 2 centavos. Eu prefácio tudo isso dizendo que estou assumindo que estamos falando de uma situação em que o uso das técnicas tradicionais "enlatadas" prejudicará as conclusões substantivas alcançadas pela análise. Se não for esse o caso, acho que às vezes fazer uma análise excessivamente simplista é desculpável tanto por brevidade quanto por facilidade de compreensão quando o público-alvo é leigo. É realmente um crime assumir independência quando a correlação intraclasse é 0,02 ou assumir linearidade quando a verdade é Eu diria que não.log(x); x(1,2)? 


Na minha carreira, faço muitas pesquisas interdisciplinares e me levou a trabalhar em estreita colaboração com pesquisadores de abuso de substâncias, epidemiologistas, biólogos, criminologistas e médicos em vários momentos. Isso normalmente envolvia a análise de dados em que as abordagens "enlatadas" usuais falhariam por vários motivos (por exemplo, alguma combinação de amostragem tendenciosa e dados agrupados, indexados longitudinalmente e / ou espacialmente). Também passei alguns anos consultando meio período na pós-graduação, onde trabalhei com pessoas de uma grande variedade de campos. Então, eu tive que pensar muito sobre isso.

Minha experiência é que o mais importante é explicar por que as abordagens enlatadas usuais são inadequadas e apelam ao desejo da pessoa de fazer "boa ciência". Nenhum pesquisador respeitável deseja publicar algo que seja flagrantemente enganador em suas conclusões por causa de análises estatísticas inadequadas. Eu nunca encontrei alguém que dissesse algo como "Não me importo se a análise está correta ou não, só quero que isso seja publicado", embora tenha certeza de que essas pessoas existem - minha resposta seria terminar o relacionamento profissional, se possível. Como estatístico, é minha reputação que pode ser prejudicada se alguém que realmente sabe do que está falando lê o jornal.

Admito que ele pode ser um desafio para convencer alguém de que uma análise particular é inapropriado, mas eu acho que, como os estatísticos devemos (a) tem o conhecimento necessário para saber exatamente o que pode dar errado com a abordagem "enlatados" e (b) têm a capacidade de explicá-lo é uma maneira razoavelmente compreensível. A menos que você esteja trabalhando como professor de estatística ou matemática, uma parte do seu trabalho será trabalhar com não-estatísticos (e até mesmo se você for um professor de estatística / matemática).

Em relação a (a) , se o estatístico não possui esse conhecimento, por que desencorajaria a abordagem enlatada? Se o estatístico está dizendo "use modelos de efeitos aleatórios", mas não consegue explicar por que assumir a independência é um problema, eles não são culpados de ceder ao dogma da mesma maneira que o cliente? Qualquer revisor, estatístico ou não, pode fazer críticas pedantes a uma abordagem de modelagem estatística porque, vamos ser sinceros - todos os modelos estão errados. Porém, é necessário conhecimento para saber exatamente o que pode dar errado.

Em relação a (b) , descobri que as representações gráficas do que poderia dar errado geralmente "atingem mais a casa". Exemplos:

  • x

  • y=xx(0,1)y=1x>1pxy

  • Outra situação comum (também mencionada por Peter) está explicando por que assumir independência é uma má idéia. Por exemplo, você pode mostrar com uma plotagem que a autocorrelação positiva normalmente produzirá dados mais "agrupados" e a variação será subestimada por esse motivo, dando alguma intuição do motivo pelo qual os erros padrão ingênuos tendem a ser muito pequenos. Ou você também pode plotar os dados com a curva ajustada que assume independência e pode-se ver visualmente como os clusters influenciam o ajuste (efetivamente diminuindo o tamanho da amostra) de uma maneira que não está presente em dados independentes.

Existem milhões de outros exemplos, mas estou trabalhando com restrições de espaço / tempo aqui :) Quando as imagens simplesmente não funcionam por qualquer motivo (por exemplo, mostrando por que uma abordagem é insuficiente), os exemplos de simulação também são uma opção que eu empreguei de tempos em tempos.


3

Alguns pensamentos aleatórios, porque esta é uma questão complexa ...

Sinto que um grande problema é a falta de ensino de matemática em uma variedade de disciplinas profissionais e programas de graduação.

Sem um entendimento matemático de estatística, torna-se um monte de fórmulas a serem aplicadas de acordo com o caso.

Além disso, para obter uma compreensão real do assunto, os professores devem falar sobre os problemas originais que os autores originais estavam enfrentando no momento em que publicaram suas abordagens. Pode-se aprender mais com isso do que lendo milhares de livros sobre o assunto.

A estatística é uma caixa de ferramentas para resolver problemas, mas também é uma arte e enfrenta os mesmos problemas que qualquer outra arte.

Pode-se aprender a emitir sons com um instrumento. Mas sendo capaz de"tocar" um instrumento não se torna músico.

No entanto, não é incomum encontrar pessoas que se consideram músicos sem ter estudado um único conceito de ritmo, melodia e harmonia.

Na mesma linha, para publicar artigos, a maioria das pessoas não precisa conhecer nem entender os conceitos por trás de uma fórmula ... hoje em dia os cientistas precisam saber qual tecla eles devem pressionar e quando devem ser pressionados, ponto final.

Portanto, isso não tem nada a ver com o "ego" dos médicos. Este é um problema subcultural, um problema mais relacionado à educação, costumes e valores da comunidade científica.

O que se pode esperar em uma época em que existem milhares e milhares e milhares de artigos e livros inúteis sendo publicados para cumprir alguns requisitos / políticas acadêmicas? Em uma época em que a quantidade de artigos publicados é mais importante que a qualidade deles?

Os principais cientistas não estão mais preocupados com a boa ciência. Eles são escravos de números. Eles são afetados (ou infectados) pelo bug administrativo de nossa época ...

Portanto, do meu ponto de vista, um bom curso de estatística deve incluir as bases matemáticas, históricas e filosóficas da abordagem que está sendo estudada, sempre destacando os vários caminhos possíveis. levar para resolver um único problema.

Por fim, se eu fosse professor de estatística / probabilidade, minhas primeiras palestras seriam dedicadas a problemas comobaralhar cartas ou jogar uma moeda . Isso colocará o público na posição certa para ouvir ... provavelmente.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.