Por que erros não normalmente distribuídos comprometem a validade de nossas declarações de significância?

Há uma suposição de normalidade quando se trata de considerar modelos OLS e é que os erros sejam normalmente distribuídos. Estive navegando pelo Cross Validated e parece que Y e X não precisam ser normais para que os erros sejam normais. Minha pergunta é por que, quando temos erros distribuídos normalmente, a validade de nossas declarações de significância é comprometida? Por que os intervalos de confiança são muito amplos ou estreitos?

— user44278
fonte

por que, quando temos erros distribuídos normalmente, a validade de nossas declarações de significância é comprometida? Por que os intervalos de confiança serão muito amplos ou estreitos?

Os intervalos de confiança são baseados na maneira como o numerador e o denominador são distribuídos em uma estatística t.

Com dados normais, o numerador de uma estatística t tem uma distribuição normal e a distribuição do quadrado do denominador (que é então uma variação) é um múltiplo particular de uma distribuição qui-quadrado. Quando o numerador e o denominador também são independentes (como será o caso apenas dos dados normais, considerando que as próprias observações são independentes), toda a estatística tem uma distribuição t.

Isso significa que uma estatística t como será uma quantidade essencial (sua distribuição não depende do que é o verdadeiro coeficiente de inclinação e é uma função do desconhecido ), o que o torna adequado para a construção de intervalos de confiança ... e esses intervalos usarão os quantiles em sua construção para obter a cobertura desejada. $\frac{\hat \beta - \beta}{s_{\hat\beta}}$ $\beta$ $t$

Se os dados fossem de alguma outra distribuição, a estatística não teria uma distribuição t. Por exemplo, se fosse de cauda pesada, a distribuição t tenderia a ser um pouco mais clara (as observações externas afetam mais o denominador do que o numerador). Aqui está um exemplo. Nos dois casos, o histograma é para 10.000 regressões:

insira a descrição da imagem aqui

O histograma à esquerda é para quando os dados são condicionalmente normais, n = 30 (e, nesse caso, ). A distribuição parece como deveria. O histograma à direita é o caso em que a distribuição condicional é inclinada à direita e de cauda pesada, e o histograma mostra muito poucos valores fora de - a distribuição não se parece muito com a distribuição teórica para dados normais, porque a estatística não tem mais a distribuição t. $\beta=0$ $(-2,2)$

Um intervalo t de 95% (que deve incluir 95% das pistas em nossa amostra) varia de -2,048 a 2,048. Para os dados normais, incluiu 95,15% das 10000 pistas de amostragem. Para os dados distorcidos, inclui 99,91%.

— Glen_b -Reinstate Monica
fonte

Que distribuição você usou para a versão distorcida e de cauda pesada?

— gung - Restabelece Monica

@gung Gamma com o parâmetro de forma 0,01 (o tamanho da amostra foi 30, ajustada regressão linear simples); resultados bastante semelhantes ocorrem com outras distribuições altamente inclinadas. Você não precisa disso tão distorcido para fazer a distribuição parecer distintamente diferente de .

t

$t$

— Glen_b -Reinstala Monica