Qual é a necessidade de suposições na regressão linear?

14

Na regressão linear, fazemos as seguintes suposições

A média da resposta, , em cada conjunto de valores dos preditores, , é uma função linear dos preditores.

E (Y_{i})

$E(Y_i)$

(x_{1 i}, x_{2 i}, \dots)

$(x_{1i}, x_{2i},…)$

Os erros,

ε_{i}

$ε_i$ , são independentes.

Os erros,

ε_{i}

$ε_i$ , em cada conjunto de valores dos preditores

(x_{1 i}, x_{2 i}, \dots)

$(x_{1i}, x_{2i},…)$ , são normalmente distribuídos.

Os erros,

ε_{i}

$ε_i$ , em cada conjunto de valores dos preditores,

(x_{1 i}, x_{2 i}, \dots)

$(x_{1i}, x_{2i},…)$ , têm variações iguais (denotadas

σ 2

$σ2$ ).

Uma das maneiras pelas quais podemos resolver a regressão linear é através de equações normais, que podemos escrever como

θ = (X^{T} X)^{- 1} X^{T} Y

$\theta = (X^TX)^{-1}X^TY$

Do ponto de vista matemático, a equação acima só precisa que $X^TX$ seja invertível. Então, por que precisamos dessas suposições? Perguntei a alguns colegas e eles mencionaram que é para obter bons resultados e as equações normais são um algoritmo para conseguir isso. Mas, nesse caso, como essas suposições ajudam? Como defendê-los ajuda a obter um modelo melhor?

regression assumptions

— Clock Slave
fonte

2

A distribuição normal é necessária para calcular os intervalos de confiança do coeficiente usando fórmulas usuais. Outras fórmulas de cálculo de IC (acho que eram brancas) permitem uma distribuição não normal.

— keiv.fly

Você nem sempre precisa dessas suposições para o modelo funcionar. Nas redes neurais, você tem regressões lineares internas e elas minimizam o rmse exatamente como a fórmula que você forneceu, mas provavelmente nenhuma das suposições é válida. Sem distribuição normal, sem variação igual, sem função linear, até os erros podem ser dependentes.

— precisa saber é o seguinte

2

Veja stats.stackexchange.com/q/16381/35989

— Tim

1

@ Alexis As variáveis independentes sendo iid definitivamente não são uma suposição (e a variável dependente sendo iid também não é uma suposição - imagine se assumimos que a resposta foi iid, seria inútil fazer algo além de estimar a média). E as "variáveis não omitidas" não são realmente uma suposição adicional, embora seja bom evitar omitir variáveis - a primeira suposição listada é realmente o que cuida disso.

— Dason

1

@ Jason Acho que meu link fornece um exemplo bastante forte de "nenhuma variável omitida" sendo necessária para uma interpretação válida. Eu também acho que o iid (condicional aos preditores, sim) é necessário, com passeios aleatórios fornecendo um excelente exemplo de onde a estimativa não-iid pode falhar (sempre recorrendo à estimativa apenas da média).

— Alexis #

19

Você está correto - não é necessário satisfazer essas suposições para ajustar uma linha de mínimos quadrados aos pontos. Você precisa dessas suposições para interpretar os resultados. Por exemplo, supondo que não houvesse relação entre uma entrada e , qual é a probabilidade de obter um coeficiente pelo menos tão grande quanto o que vimos na regressão? $X_1$ $Y$ $\beta_1$

— rinspy
fonte

17

Experimente a imagem do quarteto de Anscombe da Wikipedia para ter uma idéia de alguns dos possíveis problemas com a interpretação da regressão linear quando algumas dessas suposições são claramente falsas: a maioria das estatísticas descritivas básicas é a mesma em todas as quatro (e os valores individuais de são idêntico em todos, exceto no canto inferior direito) $x_i$

— Henry
fonte

Fiz uma ilustração seguindo Anscombe mostrando como pode violar a suposição de variáveis não omitidas . Ainda trabalhando em uma ilustração semelhante a Anscombe de uma violação da suposição iid .

— Alexis #

3

Você não precisa dessas suposições para ajustar-se a um modelo linear. No entanto, suas estimativas de parâmetros podem ser tendenciosas ou não ter a variação mínima. Violar as suposições tornará mais difícil interpretar os resultados da regressão, por exemplo, construindo um intervalo de confiança.

— Olá Mundo
fonte

1

Ok, as respostas até agora são assim: se violarmos as suposições, coisas ruins podem acontecer. Acredito que a direção interessante é: quando todas as premissas de que precisamos (na verdade um pouco diferentes das anteriores) são atendidas, por que e como podemos ter certeza de que a regressão linear é o melhor modelo?

Penso que a resposta para essa pergunta é a seguinte: se fizermos as suposições como na resposta dessa pergunta , podemos calcular a densidade condicional . A partir disso, podemos calcular (a fatoração da expectativa condicional em ) e ver que é de fato a função de regressão linear. Em seguida, usamos isso para verificar se essa é a melhor função em relação ao risco real. $p(y_i|x_i)$ $E[Y_i|X_i=x_i]$ $x_i$

— Fabian Werner
fonte

0

As duas principais premissas são

Independência de observações
A média não está relacionada à variância

Veja A discussão no livro de Julian Faraway .

Se ambos são verdadeiros, o OLS é surpreendentemente resistente a violações nas outras suposições listadas.

— astaines
fonte