Por que uma estatística T precisa dos dados para seguir uma distribuição normal

11

Eu estava olhando para este caderno e estou intrigado com esta afirmação:

Quando falamos de normalidade, queremos dizer que os dados devem parecer uma distribuição normal. Isso é importante porque vários testes estatísticos dependem disso (por exemplo, estatísticas t).

Não entendo por que uma estatística T precisa dos dados para seguir uma distribuição normal.

De fato, a Wikipedia diz a mesma coisa:

A distribuição t do aluno (ou simplesmente a distribuição t) é qualquer membro de uma família de distribuições de probabilidade contínuas que surgem ao estimar a média de uma população normalmente distribuída

No entanto, não entendo por que essa suposição é necessária.

Nada da sua fórmula indica para mim que os dados devem seguir uma distribuição normal:

Eu olhei um pouco em sua definição, mas não entendo por que a condição é necessária.

mathematical-statistics normal-distribution

— octaviano
fonte

17

As informações necessárias estão na seção "Caracterização" da página Wiki . Uma distribuição com graus de liberdade pode ser definida como a distribuição da variável aleatória tal que que é uma distribuição normal padrão variável aleatória e é uma variável aleatória com graus de liberdade . Além disso, e devem ser independentes. Portanto, dado qualquer e que seguem a definição acima, você pode chegar a uma variável aleatória que possui um $t$ $\nu$ $T$

T = \frac{Z}{\sqrt{V / ν}},

$T = \dfrac{Z}{\sqrt{V/\nu}} \,,$

Z

$Z$

V

$V$

χ^{2}

$\chi^2$

ν

$\nu$

Z

$Z$

V

$V$

Z

$Z$

V

$V$

t

$t$ distribuição .

Agora, suponha que é distribuído de acordo com uma distribuição . Seja média e a variação . Seja a média da amostra e a variação da amostra. Vamos então olhar para as fórmulas: $X_1, X_2, \dots, X_n$ $F$ $F$ $\mu$ $\sigma^2$ $\bar{X}$ $S^2$

\frac{\bar{X} - μ}{S / \sqrt{n}} = \frac{\frac{\bar{X} - μ}{σ / \sqrt{n}}}{\sqrt{\frac{(n - 1) S^{2}}{(n - 1) σ^{2}}}} .

$\dfrac{\bar{X} - \mu}{S/\sqrt{n}} = \dfrac{\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{(n-1)\sigma^2}}} \,.$

Se, denota a distribuição normal, então e, portanto, . Além disso, pelo Teorema de Cochran . Finalmente, por uma aplicação do teorema de Basu , e são independentes. Isso implica que a estatística resultante tem uma distribuição com graus de liberdade. $F$ $\bar{X} \sim N(\mu, \sigma^2/n)$ $\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$ $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$ $\bar{X}$ $S^2$ $t$ $n-1$

Se a distribuição de dados original não for normal, a distribuição exata do numerador e do denominador não será normal padrão e , respectivamente, e, portanto, as estatísticas resultantes não terão uma distribuição . $F$ $\chi^2$ $t$

— Greenparker
fonte

3

Eu sempre achei muito interessante quanta tecnologia matemática entra nesses resultados fundamentais em estatística matemática.

— Matthew Drury

3

Bom post. No entanto, não precisamos invocar esses grandes teoremas para provar a independência entre e , bem como a . Veja a primeira resposta deste post.

\bar{X}

$\bar{X}$

S

$S$

χ^{2}

$\chi^2$

— Zhanxiong

2

Eu acho que pode haver alguma confusão entre a estatística e sua fórmula, versus a distribuição e sua fórmula. Você pode aplicar a fórmula da estatística t a qualquer conjunto de dados e obter uma "estatística t", mas essa estatística não será distribuída de acordo com a distribuição student-t, a menos que os dados venham de uma distribuição normal (ou, pelo menos, não será garantido; meu palpite é que distribuições não normais não produzirão uma distribuição t de student quando a fórmula estatística t for aplicada, mas não tenho certeza disso. A razão para isso é simplesmente que a distribuição da estatística t é calculada a partir da distribuição dos dados que a geraram; portanto, se você tiver uma distribuição subjacente diferente, não há garantia de ter a mesma distribuição para as estatísticas derivadas.

— Acumulação
fonte