Quais são alguns exemplos de práticas anacrônicas em estatística?

55

Refiro-me a práticas que ainda mantêm sua presença, mesmo que os problemas (geralmente computacionais) para os quais foram projetados tenham sido resolvidos.

Por exemplo, a correção de continuidade de Yates foi inventada para aproximar o teste exato de Fisher com o teste , mas não é mais prático, pois o software agora pode lidar com o teste de Fisher mesmo com amostras grandes (sei que isso pode não ser um bom exemplo de " mantendo sua presença ", uma vez que os livros didáticos, como a Análise de dados categóricos da Agresti , muitas vezes reconhecem que a correção de Yates" não é mais necessária "). $\chi^2$

Quais são alguns outros exemplos de tais práticas?

references philosophical

— Francis
fonte

Na verdade, não tenho tanta certeza de que o teste do qui-quadrado tenha se tornado obsoleto pela disponibilidade do poder de computação para executar o teste exato de Fisher, por exemplo, seus marginais são realmente corrigidos? Veja esta resposta a outra pergunta do @gung, por exemplo. (Tenho certeza de que temos um tópico discutindo o problema com mais detalhes, mas não consigo encontrá-lo, pois temos muitas perguntas "devo usar o qui-quadrado ou devo usar o teste exato de Fisher" que aparecem quando Eu procuro!)

— Silverfish

@ Silverfish: eu não quis dizer que foi tornado obsoleto, apenas a correção de Yates foi. Acredito que estudos tenham mostrado que a correção de Yates é conservadora demais quando os marginais não são fixos. O artigo de Michael Haber A correção da continuidade e os testes estatísticos forneceram uma revisão.

χ^{2}

$\chi^2$

— 19616 Francis

4

@ Silverfish, provavelmente é isso que você procura: Dado o poder dos computadores hoje em dia, existe alguma razão para fazer um teste do qui-quadrado ao invés do teste exato de Fisher?

— gung - Restabelece Monica

usando OLS em vez de LAD?

— PatrickT

5

@ PatrickT: Eu tenho muitos problemas em chamar o OLS de anacrônico. Claro, há casos especiais em que o LAD é claramente superior ... mas o mesmo pode ser dito na outra direção.

— Cliff AB

49

É altamente discutível que o uso de níveis de significância de limite, como ou seja uma ressaca histórica de um período em que a maioria dos pesquisadores dependia de tabelas de valores críticos previamente calculadas. Agora, um bom software fornecerá valores de diretamente. De fato, um bom software permite personalizar sua análise e não depender de testes de livros didáticos. $P = 0.05$ $P = 0.01$ $P$

Isso é controverso apenas porque alguns problemas de teste de significância exigem decisões, como no controle de qualidade em que aceitar ou rejeitar um lote é a decisão necessária, seguida por uma ação de qualquer maneira. Mas mesmo lá os limites a serem usados devem crescer a partir de uma análise de risco, não depender da tradição. E frequentemente nas ciências, a análise de indicações quantitativas é mais apropriada do que decisões: pensar quantitativamente implica atenção nos tamanhos dos valores de e não apenas em uma dicotomia grosseira, significativa versus não significativa. $P$

Vou sinalizar que aqui abordo uma questão intrincada e controversa, que é o foco de livros inteiros e provavelmente de milhares de artigos, mas parece um bom exemplo para esse segmento.

— Nick Cox
fonte

4

Ótimo exemplo! Para referência, vale a pena mencionar este tópico: Quanto aos valores de p, por que 1% e 5%? Por que não 6% ou 10%?

— 187 Francis Francis

5

@ JM Estou 95% confiante de que você está correto, embora não esteja 99% confiante.

— Mark L. Stone

5

Na verdade, não tenho certeza se este é um ótimo exemplo. Embora seja verdade que é muito mais fácil de testar as coisas no do que costumava, eu nunca vi um bom argumento para por que você iria querer para, casos especiais fora (ou seja, controle de qualidade), caso em que eu don' não sei se ainda são usados níveis de significância arbitrários.

α = 0.038561

$\alpha = 0.038561$

— Cliff AB

4

@CliffAB Eu não acho que o ponto principal de um valor P exato seja que você decida que ele constitui o nível crítico que deseja adotar para uma decisão. Certamente não estou sugerindo ou advogando isso. Parte do argumento aqui não é apenas que 0,05 e 0,01 estão nos melhores níveis convencionais, mas que os testes fornecem uma maneira de avaliar a força da evidência em relação a uma hipótese nula, em vez de tomar uma decisão binária. Na prática, os níveis de 0,05 e 0,01 permanecem muito usados em muitos campos.

— Nick Cox

4

@ Nick Cox E não se esqueça do nível 0,1 para a multidão descontraída e suave.

— Mark L. Stone

24

Um método que eu acho que muitos visitantes deste site concordam comigo é a regressão gradual. É ainda feito tudo o tempo, mas você não tem que procurar muito para especialistas neste site dizendo deplorando seu uso. Um método como o LASSO é muito preferido.

— Cliff AB
fonte

4

HA !! Você está recomendando a substituição de um anacronismo (regressão stepwise) pelo anacronismo de próxima geração (LASSO), que é um anacronismo em seu próprio tempo, cujos adeptos ainda não o percebem. Consulte stats.stackexchange.com/questions/162861/… .

— Mark L. Stone

3

@ MarkL.Stone: Ei cara, pelo menos são 20 anos na direção certa. Eu não estou tão familiarizado com esses métodos, então precisaria ler sobre eles antes que eu pudesse dar o meu aval.

— Cliff AB

2

Depois de ler rapidamente o artigo, fico um pouco hesitante em decidir que o LASSO está oficialmente desatualizado, embora nem sempre seja a melhor opção. Talvez daqui a cinco anos eu esteja mais confortável chamando LASSO de obsoleto.

— Cliff AB

2

@amoeba: Acho que Mark está se referindo à prática de usar o LASSO como uma ferramenta para a melhor regressão de subconjuntos. Por exemplo, eu me lembro vagamente de ler alguém discutir primeiro o ajuste do LASSO e depois recolocar um modelo não penalizado usando parâmetros de regressão diferentes de zero. A melhor regressão de subconjunto pode ser uma maneira mais direta de fazer isso (embora, como você diz, não esteja claro que seja uma boa ideia, mesmo que seja o que o analista deseja fazer).

— Cliff AB

2

... e o artigo apresenta pelo menos uma situação (isto é, simulação sob certos parâmetros) em que ele executa claramente o LASSO, embora eu pense que todos nós sabemos exatamente com que seriedade devemos levar esses resultados sozinhos.

— Cliff AB

17

Minha opinião é que, pelo menos na econometria (aplicada), é cada vez mais a norma usar a matriz de covariância robusta ou empírica, em vez da "prática anacrônica" de confiar (assintoticamente) na especificação correta da matriz de covariância. Obviamente, isso não é isento de controvérsia: veja algumas das respostas que eu vinculei aqui no CrossValidated, mas é certamente uma tendência clara.

$E[uu'] = \sigma^2 I_n$

Outros exemplos incluem dados de painel, Imbens e Wooldridge escrevem, por exemplo, em seus slides de palestras argumentam contra o uso da matriz de covariância de variância de efeitos aleatórios (assumindo implicitamente alguma especificação incorreta no componente de variância como padrão):

$\sigma_c^2$ $\sigma_u^2$

Usando modelos lineares generalizados (para distribuições que pertencem à família exponencial), geralmente é recomendável usar sempre o chamado estimador sanduíche, em vez de confiar em premissas distributivas corretas (a prática anacrônica aqui): veja, por exemplo, esta resposta ou Cameron referindo-se contar dados porque a estimativa de probabilidade pseudo-máxima pode ser bastante flexível no caso de erros de especificação (por exemplo, usando Poisson se o binômio negativo estiver correto).

Tais correções de erro padrão [White] devem ser feitas para a regressão de Poisson, pois podem fazer uma diferença muito maior do que correções de heterocedasticidade semelhantes para OLS.

Greene escreve em seu livro no Capítulo 14 (disponível em seu site), por exemplo, com uma nota crítica e detalha mais as vantagens e desvantagens dessa prática:

Existe uma tendência na literatura atual de calcular esse estimador [sanduíche] rotineiramente, independentemente da função de probabilidade. * [...] * Nós enfatizamos mais uma vez que o estimador sanduíche, por si só, não é necessariamente de qualquer virtude se a função de verossimilhança for especificada incorretamente e as outras condições para o estimador M não forem atendidas.

— Arne Jonas Warnke
fonte

4

Interessante, mas a questão é o que é anacrônico, não o que é agora cada vez mais padrão; portanto, a resposta deve ser invertida.

— Nick Cox

11

Olá Nick, obrigado pelo seu comentário (e suas edições), modifiquei o texto para destacar qual é a prática anacrônica, espero que fique um pouco mais clara. Não inverti o texto inteiro, uma vez que a prática anterior está próxima de não fazer nada em especial sobre o erro padrão.

— Arne Jonas Warnke

Em alguns casos, não é natural e não é possível usar alternativas robustas, por exemplo, séries temporais. Então, acho que não está se tornando "mais popular", mas apenas "mais popular em algumas áreas".

— precisa

13

$m > 1$ $m$ $m = 1$

$m = 30$

— Cliff AB
fonte

Vim aqui para postar isso. Além disso: não estou convencido de que exista alguma situação em que a FWER seja preferida aos métodos ainda mais recentes de FDR (devido à escalabilidade e adaptabilidade).

— Alexis

13

A maioria das práticas anacrônicas deve-se provavelmente à maneira como as estatísticas são ensinadas e ao fato de as análises serem realizadas por um grande número de pessoas que fizeram apenas algumas aulas básicas. Muitas vezes ensinamos um conjunto de idéias e procedimentos estatísticos padrão porque eles formam uma sequência lógica de crescente sofisticação conceitual que faz sentido pedagogicamente (cf. Como podemos conhecer a variação da população? ). Eu também sou culpado disso: ocasionalmente ensino estatísticas 101 e 102, e digo constantemente: 'há uma maneira melhor de fazer isso, mas está além do escopo desta classe'. Para os alunos que não vão além da sequência introdutória (quase todos), eles ficam com estratégias básicas, mas substituídas.

Para um exemplo estatístico, provavelmente a prática anacrônica mais comum é testar algumas suposições e, em seguida, executar uma análise estatística tradicional porque o teste não foi significativo. Uma abordagem mais moderna / avançada / defensável seria usar um método robusto para essa suposição desde o início. Algumas referências para mais informações:
- Como escolher entre o teste t ou teste não paramétrico, por exemplo, Wilcoxon em amostras pequenas
- O teste de normalidade é 'essencialmente inútil'?
Para exemplos de estatísticas 102, qualquer número de práticas de modelagem foi ultrapassado:
- $Y$ $p$
- $Y$
- Usando um polinômio de ordem superior para capturar curvatura vs. splines cúbicos.
- $p$ $R^2$
- Com dados de medidas repetidas, categorize uma variável contínua para que o rmANOVA possa ser usado ou faça a média de várias medições em comparação com o uso de um modelo misto linear.
- Etc.

O ponto em todos esses casos é que as pessoas estão fazendo o que foi ensinado primeiro em uma aula introdutória porque simplesmente não conhecem métodos mais avançados e apropriados.

— gung
fonte

5

Um exemplo muito interessante são os testes de raiz unitária em econometria. Embora existam muitas opções disponíveis para testar contra ou para uma raiz de unidade no polinômio de atraso de uma série temporal (por exemplo, o teste Dickey Fuller (aumentado) ou o teste KPSS), o problema pode ser contornado completamente quando se usa a análise bayesiana . Sims apontou isso em seu artigo provocador intitulado Entendendo as Raízes das Unidades: Uma Volta de Helicóptero de 1991.

Os testes de raiz unitária permanecem válidos e utilizados em econometria. Embora eu pessoalmente atribuísse isso principalmente a pessoas relutantes em se adaptar às práticas bayesianas, muitos economistas conservadores defendem a prática de testes de raiz unitária dizendo que uma visão bayesiana do mundo contradiz a premissa da pesquisa econométrica. (Ou seja, os economistas pensam no mundo como um lugar com parâmetros fixos, não parâmetros aleatórios que são governados por algum hiperparâmetro.)

— Jeremias K
fonte

5

Eu estaria interessado em uma breve discussão de como as práticas bayesianas contornam esses testes. Em outras palavras, como você defenderia essa reivindicação?

— Mike Hunter

Devo admitir que já faz um tempo desde que li o artigo, mas o ponto principal é que, usando um plano anterior para a análise bayesiana de uma série temporal, pode-se usar os valores t padrão.

— Jeremias K

5

Pagar taxas de licenciamento por sistemas de software estatístico de alta qualidade. #R

— pteetor
fonte

1

O ensino / realização de testes bicaudais para a diferença sem testar simultaneamente a equivalência no campo freqüentista do teste de hipóteses é um profundo compromisso com o viés de confirmação .

Há algumas nuances, pois uma análise de poder apropriada, com definição cuidadosa do tamanho do efeito, pode proteger-se disso e fornecer mais ou menos os mesmos tipos de inferências, mas (a) as análises de poder são muitas vezes ignoradas na apresentação de descobertas, e (b) I ter Nunca visto uma análise de potência para, por exemplo, cada coeficiente de estimativa para cada variável de uma regressão múltipla, mas é fácil de fazer para os ensaios combinados de diferença e testes de equivalência (ou seja, de relevância testes).

— Alexis
fonte

0

Usando um modelo Binomial Negativo em vez de um modelo de Poisson (robusto) para identificar um parâmetro de interesse em uma variável de contagem, apenas porque há excesso de dispersão?

Veja como referência: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

A prova de que Poisson é mais robusto no caso de efeitos fixos é bastante recente, pois é ofensiva fazer referência a: Wooldridge, JM, "Estimativa sem distribuição de alguns modelos de dados não-lineares em painel", Journal of Econometrics 90 (1999), 77-97.

— Alexandre Cazenave-Lacroutz
fonte

-6

Aqui estão alguns anacronismos:

A suposição neoplatônica de que existe uma única população "verdadeira" no éter teórico que é eterna, fixa e imóvel contra a qual nossas amostras imperfeitas podem ser avaliadas faz pouco para promover o aprendizado e o conhecimento.
O reducionismo inerente a mandatos como o Navalha de Occam é inconsistente com os tempos. OU pode ser resumido como: "Entre hipóteses concorrentes, deve-se selecionar aquela com menos hipóteses". As alternativas incluem o Princípio das Múltiplas Explicações de Epicuro , que afirma aproximadamente: "Se mais de uma teoria for consistente com os dados, mantenha-as todas".
Todo o sistema de revisão por pares precisa desesperadamente de uma revisão.

* Editar *

Com dados massivos contendo dezenas de milhões de recursos, não há mais necessidade de uma fase de seleção variável.
Além disso, as estatísticas inferenciais não têm sentido.

— DJohnson
fonte

Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .

— whuber