Por que devemos usar erros t em vez de erros normais?

Em este post no blog de Andrew Gelman, há a seguinte passagem:

Os modelos bayesianos de 50 anos atrás parecem irremediavelmente simples (exceto, é claro, por problemas simples), e espero que os modelos bayesianos de hoje pareçam irremediavelmente simples, daqui a 50 anos. (Apenas para um exemplo simples: provavelmente deveríamos estar usando rotineiramente t em vez de erros normais em quase todos os lugares, mas ainda não o fazemos, por familiaridade, hábito e conveniência matemática. Essas podem ser boas razões - na ciência como na política, o conservadorismo tem muitos bons argumentos a seu favor - mas acho que, à medida que nos acostumarmos com modelos mais complicados, seguiremos nessa direção.)

Por que devemos "rotineiramente usar t em vez de erros normais em quase todos os lugares"?

— Batata
fonte

Respostas:

Porque, assumir erros normais é efetivamente o mesmo que assumir que erros grandes não ocorrem! A distribuição normal tem caudas tão leves que erros fora de desvios padrão têm probabilidade muito baixa, erros fora de desvios padrão são efetivamente impossíveis. Na prática, essa suposição raramente é verdadeira. Ao analisar conjuntos de dados pequenos e organizados de experimentos bem projetados, isso pode não importar muito, se fizermos uma boa análise de resíduos. Com dados de menor qualidade, isso pode importar muito mais. $\pm 3$ $\pm 6$

Ao usar métodos baseados em verossimilhança (ou bayesiano), o efeito dessa normalidade (como dito acima, efetivamente este é o "sem grandes erros" - suposição!) É tornar a inferência muito pouco robusta. Os resultados da análise são fortemente influenciados pelos grandes erros! Deve ser assim, já que assumir "sem grandes erros" força nossos métodos a interpretar os erros grandes como pequenos erros, e isso só pode acontecer movendo o parâmetro do valor médio para diminuir todos os erros. Uma maneira de evitar isso é usar os chamados "métodos robustos", consulte http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

Mas Andrew Gelman não concorda com isso, já que métodos robustos geralmente são apresentados de uma maneira altamente não bayesiana. O uso de erros distribuídos em t nos modelos de probabilidade / bayesiano é uma maneira diferente de obter métodos robustos, pois a distribuição tem caudas mais pesadas do que o normal, permitindo uma proporção maior de erros grandes. O parâmetro do número de graus de liberdade deve ser fixado antecipadamente, não estimado a partir dos dados, pois essa estimativa destruirá as propriedades de robustez do método (*) (também é um problema muito difícil, a função de probabilidade para , o vários graus de liberdade, podem ser ilimitados, levando a estimadores muito ineficientes (mesmo inconsistentes)). $t$ $\nu$

Se, por exemplo, você pensa (tem medo) que até 1 em cada dez observações possa ser "grandes erros" (acima de 3 sd), use uma distribuição com 2 graus de liberdade, aumentando esse número se o acredita-se que a proporção de erros grandes seja menor. $t$

Devo observar que o que eu disse acima é para modelos com erros independentes de distribuição . Também houve propostas de distribuição multivariada (que não é independente) como distribuição de erros. Isso propsal é fortemente criticado no jornal "A roupa nova do imperador: uma crítica da multivariada modelo de regressão", de TS Breusch, JC Robertson e AH Welsh, em Statistica Neerlandica (1997) Vol. 51, n. 3, pp. 269-286, onde mostram que a distribuição multivariada de erros é empiricamente indistinguível da normal. Mas essa crítica não afeta o modelo independente . $t$ $t$ $t$ $t$ $t$

(*) Uma referência afirmando isso é o MASS da Venables & Ripley --- Modern Applied Statistics with S (na página 110 da 4ª edição).

— kjetil b halvorsen
fonte

Excelente resposta (+1). Note que mesmo quando é fixo, as equações de estimativa estão mal definidas se então eu entendo que Gelman significa distribuição com o parâmetro fixado em . Conforme ilustrado na resposta a esta pergunta relacionada, isso impõe limites bastante fortes à robustez que se pode esperar dessa abordagem.

ν

$\nu$

ν \leq 2

$\nu\leq2$

t

$t$

ν

$\nu$

ν > 2

$\nu>2$

— user603

Ótima resposta e comentário. Mas: 1. Gelman está defendendo um procedimento padrão que será melhor do que assumir erros normais. Portanto, devemos comparar o simples (erros normais) com a distribuição T para os erros. 2. Na questão relacionada vinculada pelo usuário603, devemos observar que, se qe tiver informações anteriores, devemos usá-las. Bayes se destaca com informações prévias. E, por exemplo, temos informações anteriores que não são usadas. 3. Com verificações preditivas posteriores, não somos d know that the model proposed isnbons o suficiente.

— Manoel Galdino

@ Neil G: Sim, mas o cauchy é ! É claro que abordar exatamente qual distribuição de cauda pesada usar obviamente requer muito mais análise.

t_{1}

$t_1$

— precisa saber é o seguinte

Não, a distribuição t é a única opção, porque a distribuição t é o preditivo posterior do modelo gaussiano. Gelman não estava apenas escolhendo a distribuição t aleatoriamente.

— Neil G

Veja: Murphy, Kevin P. "Análise Bayesiana Conjugada da Distribuição Gaussiana". def 1.2σ2 (2007): 16. Ele deriva a distribuição t como o preditivo posterior do modelo gaussiano. Não é apenas o caso do modelador escolher uma distribuição arbitrária de cauda pesada.

— Neil G

Não se trata apenas de "caudas mais pesadas" - existem muitas distribuições em forma de sino e caudas pesadas.

A distribuição T é a preditiva posterior do modelo gaussiano. Se você fizer uma suposição gaussiana, mas tiver evidências finitas, o modelo resultante estará necessariamente fazendo previsões distribuídas em t não centralizadas e em escala. No limite, à medida que a quantidade de evidências que você tem chega ao infinito, você termina com previsões gaussianas, já que o limite da distribuição t é gaussiano.

Por que isso acontece? Porque, com uma quantidade finita de evidências, há incerteza nos parâmetros do seu modelo. No caso do modelo gaussiano, a incerteza na média apenas aumentaria a variância (isto é, o preditivo posterior de um gaussiano com variação conhecida ainda é gaussiano). Mas a incerteza sobre a variação é o que causa as caudas pesadas. Se o modelo for treinado com evidência ilimitada, não haverá mais incerteza na variação (ou na média) e você poderá usar seu modelo para fazer previsões gaussianas.

Este argumento se aplica a um modelo gaussiano. Também se aplica a um parâmetro que é inferido cujas probabilidades são gaussianas. Dados dados finitos, a incerteza sobre o parâmetro é t-distribuída. Onde quer que haja suposições normais (com média e variância desconhecidas) e dados finitos, há preditivos posteriores distribuídos em t.

Existem distribuições preditivas posteriores semelhantes para todos os modelos bayesianos. Gelman está sugerindo que deveríamos usá-los. Suas preocupações seriam atenuadas por evidências suficientes.

— Neil G
fonte

Você pode fazer backup disso com algumas referências?

— Kjetil b halvorsen

@kjetilbhalvorsen: Murphy, Kevin P. "Análise Bayesiana Conjugada da Distribuição Gaussiana". def 1.2σ2 (2007): 16.

— Neil G

Perspectiva interessante, eu nunca tinha ouvido isso antes. Então, os erros distribuídos em t também levam a previsões distribuídas em t? Isso para mim é um argumento a favor de continuar usando erros gaussianos. A menos que você espere discrepâncias condicionais , o modelo de erro condicional não precisa permitir isso. Isso equivale à suposição de que todo o afastamento provém de valores afastados dos preditores. Eu não acho que essa suposição seja tão ruim em muitos casos. E por motivos puramente estéticos, eu não vejo porque as distribuições condicionais e marginais têm que combinar

— shadowtalker

@ssdecontrol "Os erros da distribuição t também levam a previsões da distribuição t?" Não sei, mas acho que não. Para mim, essa perspectiva é muito útil para uma compreensão intuitiva do porquê o teste t funciona.

— Neil G