Por que a distribuição t se torna mais normal à medida que o tamanho da amostra aumenta?

De acordo com a Wikipedia, entendo que a distribuição t é a distribuição amostral do valor t quando as amostras são observações de uma população normalmente distribuída. No entanto, não entendo intuitivamente por que isso faz com que o formato da distribuição t mude de cauda gorda para quase perfeitamente normal.

Entendo que, se você estiver coletando amostras de uma distribuição normal, se você coletar uma amostra grande, ela se parecerá com essa distribuição, mas não entendo por que ela começa com a forma de cauda gorda.

normal-distribution t-distribution

— user1205901 - Restabelecer Monica
fonte

Vou tentar dar uma explicação intuitiva.

A estatística t * tem um numerador e um denominador. Por exemplo, a estatística no teste t de uma amostra é

\frac{\bar{x} - μ_{0}}{s / \sqrt{n}}

$\frac{\bar{x}-\mu_0}{s/\sqrt{n}}$

* (existem várias, mas espero que essa discussão seja suficientemente geral para cobrir as perguntas que você está perguntando)

Sob as premissas, o numerador tem uma distribuição normal com média 0 e algum desvio padrão desconhecido.

Sob o mesmo conjunto de suposições, o denominador é uma estimativa do desvio padrão da distribuição do numerador (o erro padrão da estatística no numerador). É independente do numerador. Seu quadrado é uma variável aleatória qui-quadrado dividida por seus graus de liberdade (que também é o df da distribuição t) vezes . $\sigma_\text{numerator}$

Quando os graus de liberdade são pequenos, o denominador tende a ser bastante inclinado. Ele tem uma grande chance de ser menor que sua média e uma chance relativamente boa de ser bem pequeno. Ao mesmo tempo, também tem alguma chance de ser muito, muito maior que a média.

Sob a suposição de normalidade, o numerador e o denominador são independentes. Portanto, se extrairmos aleatoriamente a partir da distribuição dessa estatística t, teremos um número aleatório normal dividido por um segundo valor escolhido aleatoriamente * a partir de uma distribuição inclinada à direita que é, em média, em torno de 1.

* sem considerar o termo normal

Por estar no denominador, os pequenos valores na distribuição do denominador produzem valores t muito grandes. A inclinação à direita no denominador torna a estatística t de cauda pesada. A cauda direita da distribuição, quando no denominador, torna a distribuição t mais acentuada do que a normal, com o mesmo desvio padrão que o t .

No entanto, à medida que os graus de liberdade se tornam grandes, a distribuição se torna muito mais normal e muito mais "rígida" em relação à sua média.

insira a descrição da imagem aqui

Assim, o efeito da divisão pelo denominador na forma da distribuição do numerador reduz à medida que os graus de liberdade aumentam.

Eventualmente - como o teorema de Slutsky nos sugere, o efeito do denominador se torna mais como dividir por uma constante e a distribuição da estatística t é muito próxima do normal.

Considerado em termos recíprocos do denominador

whuber sugeriu nos comentários que poderia ser mais esclarecedor olhar para o recíproco do denominador. Ou seja, poderíamos escrever nossas estatísticas t como numerador (normal) vezes recíproco do denominador (inclinação à direita).

Por exemplo, nossa estatística de uma amostra-t acima se tornaria:

\sqrt{n} (\bar{x} - μ_{0}) \cdot 1 / s

${\sqrt{n}(\bar{x}-\mu_0)}\cdot{1/s}$

Agora considere o desvio padrão da população do original , . Podemos multiplicar e dividir por ele, assim: $X_i$ $\sigma_x$

\sqrt{n} (\bar{x} - μ_{0}) / σ_{x} \cdot σ_{x} / s

${\sqrt{n}(\bar{x}-\mu_0)/\sigma_x}\cdot{\sigma_x/s}$

O primeiro termo é padrão normal. O segundo termo (a raiz quadrada de uma variável aleatória em escala inversa ao quadrado do qui-quadrado) então escala esse padrão normal por valores que são maiores ou menores que 1, "espalhando-o".

Sob a suposição de normalidade, os dois termos no produto são independentes. Portanto, se extrairmos aleatoriamente a partir da distribuição desta estatística t, teremos um número aleatório normal (o primeiro termo no produto) vezes um segundo valor escolhido aleatoriamente (sem considerar o termo normal) a partir de uma distribuição inclinada à direita que seja ' normalmente "em torno de 1.

Quando o df é grande, o valor tende a ser muito próximo de 1, mas quando o df é pequeno, é bastante inclinado e o spread é grande, com a cauda direita grande desse fator de escala tornando a cauda bastante gorda:

insira a descrição da imagem aqui

— Glen_b -Reinstate Monica
fonte

Obrigado! Isso esclareceu muito, mas eu ainda estava um pouco inseguro sobre "Seu quadrado é uma variável aleatória qui-quadrado dividida por seus graus de liberdade (que também é o df da distribuição t) vezes [o desvio padrão do] numerador " Você mencionou isso apenas porque era uma coisa útil saber ou é algo de relevância direta para a resposta à minha pergunta? Entendo que é a distribuição do denominador, em oposição à distribuição do quadrado do denominador, que está representada em sua figura.

— user1205901 - Reintegrar Monica

A distribuição da estatística seria mais pesada do que o normal, mesmo que não fosse especificamente a raiz quadrada de um qui-quadrado em seu df; nesse sentido, não alteraria diretamente a resposta para deixar de fora. Mas, pelo menos, serve como uma explicação para a origem das distribuições em escala no diagrama.

— Glen_b -Reinstala Monica

Eu acho que pode ser um pouco mais esclarecedor conduzir essa análise com base no recíproco do desvio padrão da amostra. Isso, juntamente com um argumento de que o SD da amostra é independente da média da amostra (uma ideia-chave que se beneficiaria de um pouco mais de ênfase e explicação, IMHO), ajudaria as pessoas a ver que a divisão da média da amostra pelo SD da amostra tem que espalhe o que de outra forma seria uma distribuição Normal. (Obviamente, esse foi o ponto principal da descoberta de Gossett.)

— whuber

@whuber Adicionei uma seção discutindo-a em termos recíprocos, mas também retive a discussão original (me parece mais direta, mas compreendo que muitas pessoas possam tirar mais proveito disso em termos de recíproca) . Vou acrescentar um pouco sobre a independência, bem

— Glen_b -Reinstate Monica

s / \sqrt{n}

$s/\sqrt{n}$

σ / \sqrt{n}

$\sigma/\sqrt{n}$

s / σ

$s/\sigma$

σ / s

$\sigma/s$

σ

$\sigma$

@Glen_b deu a você a intuição de por que a estatística t parece mais normal à medida que o tamanho da amostra aumenta. Agora, darei uma explicação um pouco mais técnica para o caso em que você já obteve a distribuição da estatística.

$n-1$ $n$

\frac{{(1 + \frac{x^{2}}{n - 1})}^{- n / 2}}{\sqrt{n - 1} B (\frac{n - 1}{2}, \frac{1}{2})} .

$\frac{\left(1+\frac{x^2}{n-1}\right)^{-n/2}}{\sqrt{n-1} B\left(\frac{n-1}{2},\frac{1}{2}\right)}.$

É possível mostrar que

\frac{1}{\sqrt{n - 1} B (\frac{n - 1}{2}, \frac{1}{2})} \to \frac{1}{\sqrt{2 π}},

$\frac{1}{\sqrt{n-1} B\left(\frac{n-1}{2},\frac{1}{2}\right)}\rightarrow \frac{1}{\sqrt{2\pi}},$

{(1 + \frac{x^{2}}{n - 1})}^{- n / 2} \to \exp (- x^{2} / 2),

$\left(1+\frac{x^2}{n-1}\right)^{-n/2}\rightarrow \exp(-x^2/2),$

$n\rightarrow \infty$

— Kruger
fonte

1 / n

$1/n$

(1 + (x / n)^{2})^{- 1}

$(1 + (x/n)^2)^{-1}$

t_{n}

$t_n$ graus de liberdade? Ele quer saber por que a sequência "começa com a forma de cauda gorda".

— whuber

- n

$-n$

n

$n$

Eu só queria compartilhar algo que ajudou minha intuição como iniciante (embora seja menos rigoroso que as outras respostas).

$Z, Z_1, ..., Z_n$

\frac{Z}{\sqrt{\frac{Z_{1}^{2} + . . . + Z_{n}^{2}}{n}}}

$\frac{Z}{\sqrt{\frac{Z_1^2+...+Z_n^2}{n}}}$

$n$

$n$ $1$ $Z$ $n$

$E[Z^2] = 1$ $n$ $Z_i^2$ $n$ $Z_i^2$

$n$ $\frac{Z}{\sqrt{1}} = Z$

— HJ_beginner
fonte