distribuição t com cauda mais pesada que a distribuição normal


10

Nas minhas notas de aula, diz:

A distribuição t parece normal, embora com caudas um pouco mais pesadas.

Entendo por que pareceria normal (por causa do Teorema do Limite Central). Mas estou tendo dificuldade em entender como provar matematicamente que ela possui caudas mais pesadas que a distribuição normal e se existe uma maneira de medir em que medida ela é mais pesada que a distribuição normal.

Respostas:


12

A primeira coisa a fazer é formalizar o que queremos dizer com "cauda mais pesada". Pode-se, inicialmente, observar quão alta é a densidade na extremidade extrema depois de padronizar ambas as distribuições para terem a mesma localização e escala (por exemplo, desvio padrão):

insira a descrição da imagem aqui
(a partir desta resposta, que também é um pouco relevante para sua pergunta )

[Para este caso, a escala realmente não importa no final; o t ainda será "mais pesado" que o normal, mesmo se você usar escalas muito diferentes; o normal sempre diminui eventualmente]

No entanto, essa definição - embora funcione bem para essa comparação específica - não generaliza muito bem.

De maneira mais geral, uma definição muito melhor está na resposta do whuber aqui . Portanto, se for mais pesado que , como se torna suficientemente grande (para todos algum ), então , onde , onde é o cdf (para mais pesado à direita; existe uma definição semelhante e óbvia do outro lado).XYXt > t 0 S Y ( t ) > S X ( t ) S = 1 - F Ftt>t0SY(t)>SX(t)S=1FF

insira a descrição da imagem aqui

Aqui está na escala logarítmica e na escala quantil do normal, o que nos permite ver mais detalhes:

insira a descrição da imagem aqui

Portanto, a "prova" de cauda mais pesada envolveria a comparação de cdfs e a demonstração de que a cauda superior do t-cdf eventualmente sempre fica acima da normal e a cauda inferior do t-cdf eventualmente sempre fica abaixo da normal.

Nesse caso, a coisa mais fácil a fazer é comparar as densidades e depois mostrar que a posição relativa correspondente dos cdfs (funções / sobrevivente) deve seguir a partir disso.

Por exemplo, se você pode argumentar que (em algum dado )ν

x2(ν+1)log(1+x2ν)>2log(k)

para a constante necessária (uma função de ), para todos alguns , seria possível estabelecer uma cauda mais pesada para também na definição em termos de maior (ou maior em cauda esquerda).ν x > x 0 t ν 1 - F Fkνx>x0tν1FF

(esta forma segue a diferença do logaritmo das densidades, se isso mantiver a relação necessária entre as densidades)

[Na verdade, é possível mostrá-lo para qualquer (não apenas o específico de que precisamos, proveniente das constantes de normalização da densidade relevantes); portanto, o resultado deve se manter para o que precisamos.]kkk


11
Um gráfico com (e talvez estendendo-se um pouco) pode demonstrar as caudas mais pesadas com mais clareza e também pode funcionar com graus mais altos de liberdade,xlogS(x)x
Henry

11
@ Henry, eu gerei esse enredo, mas não tinha certeza do valor agregado, então não o incluí. Vou pensar em colocá-lo.
Glen_b -Reinstala Monica 10/11/2015

11
@ Henry eu incluí o enredo.
Glen_b -Reinstate Monica

2

Uma maneira de ver a diferença é usando os momentosE{xn}.

Caudas "mais pesadas" significarão valores mais altos para os momentos de potência pares (potência 4, 6, 8), quando a variação for a mesma. Em particular, o momento da 4ª ordem (em torno de zero) é chamado curtose e compara, em algum sentido exato, o peso das caudas.

Consulte a Wikipedia para obter detalhes ( https://en.wikipedia.org/wiki/Kurtosis )


11
Embora para uma distribuição com ou graus de liberdade, a curtose seja infinita, enquanto que com graus de liberdade o desvio padrão é infinito, portanto você não pode calcular a curtose e, com grau de liberdade, não consegue nem calcular a média ou o momento. 3 4 2 1 4t34214
Henry

3
@ Henry No entanto, essa idéia é boa. Expandir o CDF da distribuição Student torno de mostra que é assintoticamente proporcional a . Assim, todos os momentos absolutos de peso menores que existem e todos os momentos absolutos de peso maiores que divergem. Com a distribuição Normal, todos os momentos absolutos existem. Isso fornece uma ordem definida das caudas de todas as distribuições Student e da distribuição Normal. Com efeito, o parâmetro fornece uma resposta para a pergunta original sobre como medir o peso de uma cauda. + x - ν ν ν t νt(ν)+xνννtν
whuber

2

Aqui está uma prova formal baseada nas funções de sobrevivência. Eu uso a seguinte definição de "cauda mais pesada", inspirada na wikipedia :

S Y ( t ) X S x ( t )YSy(t)XSx(t)

limtSy(t)Sx(t)=

Considere uma variável aleatória distribuída como t de Student com média zero, graus de liberdade e parâmetro de escala . Comparamos isso com a variável aleatória . Para ambas as variáveis, as funções de sobrevivência são diferenciáveis. Portanto, YνaXN(0,σ2)

limtSy(t)Sx(t)=limtfy(t)fx(t)=explimt(logfy(t)logfx(t))=explimt(ν+12log(1+t2νa2)(12σ2t2)+C)=exp(limtν+12log(1+t2νa2)(12σ2t2)+C)=exp(limt12σ2t2ν+12log(1+t2νa2)+C)=exp(12limua2σ2u(ν+1)log(1+uν)+C)=exp(12limuu(a2σ2(ν+1)log(1+uν)u+Cu))
Onde substituímos . Observe que é uma constante, e Portanto, pelo teorema algébrico do limite, u=t2/a20<a2/σ2<limuC/u=0limtSy(t)
limu(ν+1)log(1+uν)u=limu(ν+1)(1)(1+uν)(ν)=0
limtSy(t)Sx(t)=exp(12limuu(a2σ2(0)+(0)))=

É importante ressaltar que o resultado é válido para valores arbitrários (finitos) de , e , para que você possa ter situações em que a distribuição tenha uma variação menor que a normal, mas ainda tenha caudas mais pesadas.σ 2 νaσ2ν


11
Apenas uma observação de que essa "definição" de caudas mais pesadas nem sempre é aceitável. Por exemplo, a distribuição N (0,1), por esta definição, tem caudas mais pesadas que a distribuição .9999 * U (-1,1) + .0001 * U (-1000, 1000), mesmo que a última distribuição produza valores ocasionais de até 175 desvios-padrão da média, apesar de ter suporte limitado. Obviamente, o N (0,1) também produz esses valores, mas com probabilidades bem abaixo do que pode ser considerado relevante para fins práticos.
precisa
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.