Regras práticas para estatísticas "modernas"


85

Gosto do livro de G van Belle sobre Regras de Estatística , e em menor grau Erros Comuns em Estatística (e Como Evitá-las) de Phillip I Good e James W. Hardin. Eles abordam as armadilhas comuns na interpretação dos resultados de estudos experimentais e observacionais e fornecem recomendações práticas para inferência estatística ou análise exploratória de dados. Mas sinto que faltam diretrizes "modernas", especialmente com o crescente uso de estatísticas computacionais e robustas em vários campos, ou a introdução de técnicas da comunidade de aprendizado de máquina em, por exemplo, bioestatística clínica ou epidemiologia genética.

Além dos truques computacionais ou das armadilhas comuns na visualização de dados que poderiam ser abordadas em outros lugares, gostaria de perguntar: Quais são as principais regras práticas que você recomendaria para uma análise eficiente dos dados? ( uma regra por resposta, por favor ).

Estou pensando nas diretrizes que você pode fornecer a um colega, a um pesquisador sem formação sólida em modelagem estatística ou a um aluno do curso intermediário ao avançado. Isso pode pertencer a vários estágios da análise de dados, por exemplo, estratégias de amostragem, seleção de recursos ou construção de modelos, comparação de modelos, pós-estimativa, etc.

Respostas:


62

Não se esqueça de verificar alguns dados básicos antes de iniciar a análise. Em particular, observe um gráfico de dispersão de todas as variáveis ​​que você pretende analisar em relação ao número de ID, data / hora da coleta de dados ou similar. Muitas vezes, os olhos conseguem captar padrões que revelam problemas quando as estatísticas resumidas não mostram nada incomum. E se você usar um log ou outra transformação para análise, use-o também para o gráfico.


6
Eu aprendi este da maneira mais difícil. Duas vezes.
onestop

2
Sim! Olhe antes de pular. Por favor, olhe para os dados.
precisa

7
A inspeção visual dos dados pode aumentar o erro do tipo I se as decisões forem tomadas post-hoc. Costumo executar análises confirmatórias conforme foram pré-especificadas e incluir resultados que foram impactados pela inspeção como análises exploratórias ou de sensibilidade.
Adamo

51

Mantenha sua análise reproduzível. Um revisor, seu chefe ou outra pessoa eventualmente perguntará como exatamente você chegou ao seu resultado - provavelmente seis meses ou mais depois de fazer a análise. Você não se lembrará de como limpou os dados, que análise fez, por que escolheu o modelo específico que usou ... E reconstruir tudo isso é uma dor.

Corolário: use algum tipo de linguagem de script, coloque comentários em seus scripts de análise e mantenha-os. O que você usa (R, SAS, Stata, qualquer que seja) é menos importante do que ter um script completamente reproduzível. Rejeite ambientes nos quais isso é impossível ou embaraçoso.


24
Se você usar o R, recomendo incorporar seu código R em um documento Sweave que produz seu relatório. Dessa forma, o código R permanece com o relatório.
John D. Cook

36

Nao tem almoço gratis

Uma grande parte das falhas estatísticas é criada ao clicar em um grande botão brilhante chamado "Calcular significado", sem levar em conta o ônus de suposições ocultas.

Repetir

Mesmo se uma única chamada para um gerador aleatório estiver envolvida, pode-se ter sorte ou má sorte e, assim, tirar conclusões erradas.


29

Uma regra por resposta ;-)

Converse com o estatístico antes de conduzir o estudo. Se possível, antes de solicitar a concessão. Ajude-o a entender o problema que está estudando, obtenha informações sobre como analisar os dados que você está prestes a coletar e pense sobre o que isso significa para o design do seu estudo e os requisitos de dados. Talvez o cara / gal de estatísticas sugira fazer um modelo hierárquico para explicar quem diagnosticou os pacientes - então você precisa rastrear quem diagnosticou quem. Parece trivial, mas é muito melhor pensar sobre isso antes de coletar dados (e deixar de coletar algo crucial) do que depois.

Em uma nota relacionada: faça uma análise de energia antes de iniciar. Nada é tão frustrante quanto não ter orçado para um tamanho de amostra suficientemente grande. Ao pensar em qual tamanho de efeito você espera, lembre-se do viés de publicação - o tamanho do efeito que você encontrará provavelmente será menor do que o esperado, dada a literatura (tendenciosa).


28

Uma coisa que digo aos meus alunos é produzir um gráfico apropriado para cada valor-p. por exemplo, um gráfico de dispersão se eles testarem correlação, gráficos de caixas lado a lado se fizerem uma ANOVA unidirecional, etc.


28

Se você decidir entre duas maneiras de analisar seus dados, tente nos dois sentidos e veja se isso faz diferença.

Isso é útil em muitos contextos:

  • Transformar ou não transformar
  • Teste não paramétrico ou paramétrico
  • Correlação de Spearman ou Pearson
  • PCA ou análise fatorial
  • Se deve ser usada a média aritmética ou uma estimativa robusta da média
  • A inclusão ou não de uma covariável
  • Se deve-se usar exclusão em lista, exclusão em pares, imputação ou algum outro método de substituição de valores ausentes

Isso não deve impedir que alguém pense sobre a questão, mas pelo menos dá uma noção do grau em que as descobertas substantivas são robustas para a escolha.


4
É uma cotação? Só estou me perguntando como tentar procedimentos alternativos de teste (não estratégias de análise!) Pode não interromper o controle do erro Tipo I ou do cálculo inicial de potência. Sei que o SAS sistematicamente retorna resultados de testes paramétricos e não paramétricos (pelo menos na comparação de duas amostras de médias e ANOVA), mas sempre acho isso intrigante: não devemos decidir, antes de ver os resultados, qual teste deve ser aplicado?
chl

4
@chl bom ponto. Concordo que a regra geral acima pode ser usada pelas razões erradas. Ou seja, tentando as coisas de várias maneiras e relatando apenas o resultado que dá a resposta mais agradável. Considero a regra prática tão útil quanto uma ferramenta de treinamento para analistas de dados, a fim de aprender o efeito das decisões de análise em conclusões substantivas. Eu já vi muitos estudantes se perderem nas decisões, particularmente onde há conselhos concorrentes na literatura (por exemplo, transformar ou não transformar) que geralmente têm uma influência mínima nas conclusões substantivas.
precisa saber é o seguinte

1
@chl não, não é uma cotação. Mas pensei que era bom demarcar a regra de ouro de sua lógica e advertências. Eu mudei para negrito para deixar claro.
Jeromy Anglim 19/09/10

1
Ok, faz sentido para mim tentar diferentes transformações e verificar se isso oferece uma maneira melhor de explicar os relacionamentos estudados; o que não entendo é tentar diferentes estratégias de análise, embora seja uma prática atual (mas não relatada em artigos publicados :-), esp. quando eles se baseiam em suposições diferentes (em EFA vs. PCA, você assume um termo de erro extra; em testes não paramétricos vs. paramétricos, descarta parte das suposições etc.). Mas, eu concordo a demarcação entre a análise exploratória e confirmatória não é tão claro ...
chl

2
Isso me parece útil apenas para análises exploratórias ou durante as etapas de treinamento e validação. Você sempre precisará de uma etapa final de teste de verificação ou, caso contrário, poderá se enganar com certos resultados significativos que funcionam bem depois de obter a diferença desejada de acordo com suas crenças 'subjetivas' . Quem deve julgar qual método funciona melhor? Pessoalmente, se duvido de métodos diferentes, testo-os em dados simulados, a fim de testar coisas como variação de estimadores ou robustez etc.
Sextus Empiricus:

22

Questione seus dados. Na era moderna da RAM barata, geralmente trabalhamos com grandes quantidades de dados. Um erro de "dedo gordo" ou "casa decimal perdida" pode facilmente dominar uma análise. Sem alguma verificação básica de sanidade (ou plotagem dos dados, conforme sugerido por outros aqui), pode-se perder muito tempo. Isso também sugere o uso de algumas técnicas básicas de 'robustez' para os valores extremos.


2
Corolário: verifique se alguém codificou um valor ausente como "9999" em vez de "NA". Se o seu software usar esse valor pelo valor nominal, ele estragará sua análise.
Stephan Kolassa

21

Use um software que mostre a cadeia da lógica de programação, desde os dados brutos até as análises / resultados finais. Evite softwares como o Excel, nos quais um usuário pode cometer um erro indetectável em uma célula, para que somente a verificação manual seja detectada.


1
VisTrails é um sistema que ajuda esse processo. (Eu usei apenas sistemas homebrew; objetivos do grupo comuns são mais importantes do que uma ferramenta particular.)
denis

18

Sempre se pergunte "o que esses resultados significam e como eles serão usados?"

Geralmente, o objetivo do uso de estatísticas é auxiliar na tomada de decisões sob incerteza. Portanto, é importante ter em mente "Que decisões serão tomadas como resultado dessa análise e como essa análise influenciará essas decisões?" (por exemplo, publique um artigo, recomende a utilização de um novo método, forneça $ X em financiamento para Y, obtenha mais dados, relate uma quantidade estimada como E, etc. etc.)

Se você acha que não há nenhuma decisão a ser tomada, então se pergunta por que você está fazendo a análise em primeiro lugar (pois é muito caro fazer a análise). Penso nas estatísticas como um "incômodo", pois é um meio para um fim, e não um fim em si. Na minha opinião, quantificamos apenas a incerteza para que possamos usá-la para tomar decisões que explicam essa incerteza de maneira precisa.

Eu acho que essa é uma das razões pelas quais manter as coisas simples é uma boa política em geral, porque geralmente é muito mais fácil relacionar uma solução simples ao mundo real (e, portanto, ao ambiente em que a decisão está sendo tomada) do que a solução complexa. . Também é geralmente mais fácil entender as limitações da resposta simples. Você passa para as soluções mais complexas quando entende as limitações da solução simples e como a complexa as trata.


3
Eu concordo com tudo, exceto na noção de manter as coisas simples. Para mim, simplicidade ou complexidade deve ser uma função do custo de uma decisão imprópria que você explicou eloquentemente. A simplicidade pode ter custos insignificantes em uma área (por exemplo, veicular o anúncio errado para um cliente) e um custo totalmente diferente em outra (administrar o tratamento errado a um paciente).
Thomas Speidel

18

Pode haver uma lista longa, mas para citar algumas: (sem ordem específica)

  1. O valor P NÃO é probabilidade. Especificamente, não é a probabilidade de cometer um erro do tipo I. Da mesma forma, os ICs não têm interpretação probabilística para os dados fornecidos. Eles são aplicáveis ​​a experimentos repetidos.

  2. Problemas relacionados à variância dominam o viés na maioria das vezes na prática, portanto, uma estimativa tendenciosa com pequena variação é melhor do que uma estimativa imparcial com grande variação (na maioria das vezes).

  3. O ajuste do modelo é um processo iterativo. Antes de analisar os dados, entenda a fonte dos dados e os possíveis modelos que se encaixam ou não na descrição. Além disso, tente modelar quaisquer problemas de design em seu modelo.

  4. Use as ferramentas de visualização, observe os dados (para possíveis anormalidades, tendências óbvias, etc. para entender os dados) antes de analisá-los. Use os métodos de visualização (se possível) para ver como o modelo se ajusta a esses dados.

  5. Por último, mas não menos importante, use software estatístico para o que eles são feitos (para facilitar sua tarefa de computação), eles não substituem o pensamento humano.


14
Seu item 1 está incorreto: o valor P é a probabilidade de obter dados como extremo, ou mais extremo, dada a hipótese nula. Tanto quanto sei, isso significa que P é uma probabilidade - condicional, mas mesmo assim uma probabilidade. Sua afirmação está correta nas circunstâncias em que alguém está trabalhando dentro do paradigma de erros de Neyman-Pearson, mas não está trabalhando no paradigma dos pescadores, em que os valores de P são indicadores de evidência contra a hipótese nula. É verdade que os paradigmas são regularmente misturados em um mish-mash incoerente, mas ambos são "corretos" quando usados ​​sozinhos e intactos.
Michael Lew

2
Para intervalos de confiança, você está novamente correto apenas dentro dos limites dos intervalos de confiança neymanianos. Fisher (e outros antes dele) também criaram e usaram coisas que alguém interpretaria como intervalos de confiança, e há uma interpretação perfeitamente válida de tais intervalos, referente ao experimento específico que produz o intervalo. Na minha opinião, eles são muito preferíveis aos de Neyman. Veja minha resposta para a pergunta Funções discretas: cobertura do intervalo de confiança? para obter mais detalhes: stats.stackexchange.com/questions/8844/…
Michael Lew

@ Michael, você está correto, mas vamos ver: quantas vezes o Null está correto? Ou melhor: alguém pode provar se o nulo está correto? Também podemos ter debates filosóficos profundos sobre isso, mas esse não é o ponto. No controle de qualidade, as repetições fazem sentido, mas na ciência qualquer boa regra de decisão deve condicionar os dados.
suncoolsu

1
Fisher sabia disso (o condicionamento dos dados observados e a observação sobre o controle de qualidade se baseia nisso). Ele produziu muitos contra-exemplos com base nisso. Os bayesianos lutam por isso, digamos, há mais de meio século.
suncoolsu

1
μ=0

13

Para organização / gerenciamento de dados, verifique se, ao gerar novas variáveis ​​no conjunto de dados (por exemplo, calculando o índice de massa corporal de altura e peso), as variáveis ​​originais nunca são excluídas. Uma abordagem não destrutiva é melhor do ponto de vista da reprodutibilidade. Você nunca sabe quando pode digitar incorretamente um comando e, posteriormente, precisar refazer sua geração de variáveis. Sem as variáveis ​​originais, você perderá muito tempo!


11

Pense duro sobre o processo de geração de dados subjacente (DGP). Se o modelo que você deseja usar não refletir o DGP, você precisará encontrar um novo modelo.


Como você sabe, como você pode saber, o que é o DGP. Por exemplo, executo séries temporais em uma área em que ainda não vi uma teoria bem desenvolvida (por que certos tipos de gastos públicos ocorrem). Não acho que seja possível conhecer o verdadeiro processo neste caso.
user54285

8

Para histogramas, uma boa regra geral para o número de posições em um histograma :

raiz quadrada do número de pontos de dados


6

Apesar de conjuntos de dados cada vez maiores e software mais poderoso, os modelos de ajuste excessivo são um grande perigo para os pesquisadores, especialmente aqueles que ainda não foram queimados pelo ajuste excessivo. O excesso de ajuste significa que você ajustou algo mais complicado do que seus dados e o estado da arte. Como o amor ou a beleza, é difícil definir, muito menos definir formalmente, mas mais fácil de reconhecer.

Uma regra prática mínima é de 10 pontos de dados para cada parâmetro estimado para algo como regressão clássica e fique atento às conseqüências se você a ignorar. Para outras análises, geralmente você precisa de muito mais para fazer um bom trabalho, principalmente se houver categorias raras nos dados.

Mesmo que você possa ajustar um modelo facilmente, preocupe-se constantemente com o que ele significa e com que extensão é reproduzível, mesmo com um conjunto de dados muito semelhante.


Isso geralmente é visto como uma regra de ouro para modelos em que a resposta é condicionalmente normal. Em outros casos, é muito liberal. Por exemplo, para classificação binária, a regra prática correspondente seria 15 observações na categoria de ocorrência menos comum para cada variável; & para análise de sobrevivência, seriam 10 eventos (isto é, dados não censurados) para cada variável.
gung

Concordo. Vou editar, mas por que não publicar sua própria regra de ouro juntamente com comentários estendidos.
Nick Cox

1
Você deve destacar a última frase "Mesmo que você possa ajustar um modelo facilmente, preocupe-se constantemente com o que ele significa e com que extensão é reproduzível, mesmo com um conjunto de dados muito semelhante".
Sextus Empiricus

6

Yt+h(Yt,Xt) t>T(Y1,X1),,(YT,XT)

  1. Yt+h
  2. Yt+hYt

Yt+hYt+Xt


5

Se o modelo não convergir com facilidade e rapidez, pode ser culpa do software. No entanto, é muito mais comum que seus dados não sejam adequados para o modelo ou o modelo não seja adequado para os dados. Pode ser difícil dizer quais, e empiristas e teóricos podem ter visões diferentes. Mas o pensamento no assunto, olhando realmente os dados e constantemente pensando na interpretação do modelo, ajuda o máximo que puder. Acima de tudo, tente um modelo mais simples se um modelo complicado não convergir.

Não há ganho em forçar a convergência ou em declarar vitória e obter resultados após muitas iterações, mas antes que o seu modelo realmente tenha convergido. Na melhor das hipóteses, você se engana se fizer isso.


"realmente olhando para os dados" seria muito bom quando obtivemos um NN que faça esse trabalho para nós.
Sextus Empiricus

Foi chamado JWT.
Nick Cox

5

Nas variáveis ​​instrumentais, a regressão sempre verifique a significância conjunta de seus instrumentos. A regra geral da Staiger-Stock diz que uma estatística F inferior a 10 é preocupante e indica que seus instrumentos podem ser fracos, ou seja, não estão suficientemente correlacionados com a variável endógena. No entanto, isso não implica automaticamente que um F acima de 10 garanta instrumentos fortes. Staiger e Stock (1997) mostraram que técnicas de variáveis ​​instrumentais como 2SLS podem ser muito tendenciosas em amostras "pequenas" se os instrumentos estiverem apenas fracamente correlacionados com a variável endógena. O exemplo deles foi o estudo de Angrist e Krueger (1991), que teve mais de 300.000 observações - um fato perturbador sobre a noção de "pequenas" amostras.


Eu adicionei o link ao artigo, mas acredito que essa resposta ainda precisa de uma formatação adicional, achei muito difícil enfatizar a 'regra geral' baseada na digitalização do artigo muito rapidamente, e essa resposta não é muito intuitiva.
Sextus Empiricus

3

Não há critérios para escolher critérios de informação.

Quando alguém diz algo como "O? IC indica isso, mas geralmente é conhecido por dar resultados errados" (onde? Qualquer letra que você goste), você sabe que também terá que pensar no modelo e, em particular, se ele faz senso científico ou prático.

Nenhuma álgebra pode lhe dizer isso.


2

Eu li isso em algum lugar (provavelmente na validação cruzada) e não consegui encontrá-lo em nenhum lugar, então aqui vai ...

Se você descobriu um resultado interessante, provavelmente está errado.

É muito fácil ficar empolgado com a perspectiva de um valor p impressionante ou um erro de validação cruzada quase perfeito. Eu pessoalmente apresentei, em êxtase, resultados impressionantes (falsos) aos colegas, apenas para retirá-los. Na maioria das vezes, se parece bom demais para ser verdade ...

é verdade. É verdade.


2

Tente ser mais valoroso do que virtuoso. Ou seja, não permita que sinais mesquinhos de não-normalidade, não-independência ou não-linearidade, etc. bloqueiem seu caminho se essas indicações precisarem ser desconsideradas para que os dados falem alto e claro . - Em dinamarquês, 'dristig' vs. 'dydig' são os adjetivos.


1

Ao analisar dados longitudinais, verifique se as variáveis ​​são codificadas da mesma maneira em cada período de tempo.

Enquanto escrevia minha dissertação, que envolvia análise de dados secundários, houve uma semana mais ou menos perplexa de uma mudança de uma unidade nas pontuações médias de depressão em uma média estável por ano: resultou na de um dos anos em que No conjunto de dados, os itens da escala de um instrumento validado foram codificados de 1 a 4 em vez de 0 a 3.


1

Sua hipótese deve orientar sua escolha de modelo, e não o contrário.

Parafraseando Maslow, se você é um martelo, tudo parece um prego. Modelos específicos vêm com antolhos e suposições sobre o mundo incorporados: por exemplo, modelos não dinâmicos engasgam com o feedback dos resultados do tratamento.


1

Use a simulação para verificar onde a estrutura do seu modelo pode estar criando "resultados" que são simplesmente artefatos matemáticos das suposições do seu modelo

Execute sua análise em variáveis ​​rerandomizadas ou em variáveis ​​simuladas conhecidas por não serem correlacionadas entre si. Faça isso muitas vezes e compare estimativas de pontos médios (e intervalos de confiança ou credibilidade) com os resultados obtidos em dados reais: eles são tão diferentes assim?


0

Sou analista de dados e não estatístico, mas essas são minhas sugestões.

1) Antes de analisar os dados, verifique se as suposições do seu método estão corretas. Depois de ver os resultados, pode ser difícil esquecer, mesmo depois que você corrige os problemas e os resultados mudam.

2) Ajuda a conhecer seus dados. Executo séries temporais e obtive um resultado que pouco fazia sentido, dados os últimos anos. Revisei os métodos à luz disso e descobri que a média dos modelos no método estava distorcendo os resultados por um período (e ocorreu uma quebra estrutural).

3) Tenha cuidado com as regras práticas. Eles refletem as experiências de pesquisadores individuais a partir de seus próprios dados e, se o campo deles for muito diferente do seu, as conclusões podem não estar corretas para seus dados. Além disso, e isso foi um choque para mim, os estatísticos frequentemente discordam dos pontos principais.

4) Tente analisar dados com métodos diferentes e veja se os resultados são semelhantes. Entenda que nenhum método é perfeito e tenha cuidado para verificar quando puder violações das suposições.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.