O que significa ter "variação constante" em um modelo de regressão linear?

O que significa ter "variação constante" no termo de erro? A meu ver, temos dados com uma variável dependente e uma variável independente. A variação constante é um dos pressupostos da regressão linear. Estou imaginando o que significa homoscedasticidade. Como mesmo se eu tiver 500 linhas, eu teria um único valor de variação que é obviamente constante. Com qual variável devo comparar a variação?

regression heteroscedasticity

— Mukul
fonte

Respostas:

Isso significa que, quando você plota o erro individual contra o valor previsto, a variação do valor previsto do erro deve ser constante. Veja as setas vermelhas na figura abaixo, o comprimento das linhas vermelhas (um proxy de sua variação) são as mesmas.

insira a descrição da imagem aqui

— Penguin_Knight
fonte

OK entendido.!! Mas Como é uma suposição, não precisamos validar a suposição antes de executar o modelo. E por que precisamos esta suposição

— Mukul

Algumas suposições só podem ser testadas após a execução do modelo. Calcular um modelo é apenas matemática e não é o mesmo que interpretar um modelo.

— João

O alcance não é igual à variação do Penguin Knight; portanto, você pode atualizar sua redação aqui.

— João

Se sua suposição de variância estiver errada, geralmente significa que os erros padrão estão errados e qualquer teste de hipótese pode tirar conclusões erradas. (Um John diferente) #

— John

Eu sou um pouco diferente. Eu não diria que a heterocedasticidade significa necessariamente que os erros padrão dos seus betas estão errados, mas que o estimador OLS não é mais o estimador imparcial mais eficiente. Ou seja, você poderia obter mais potência / precisão se tivesse uma variação constante (talvez devido a uma transformação de Y) ou se levasse em consideração com precisão a não constância (talvez por meio do estimador de mínimos quadrados generalizados).

— gung - Restabelece Monica

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ_{ε}^{2})

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2_\varepsilon)$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

σ_{ε}^{2}

$\sigma^2_\varepsilon$

$\sigma^2_\varepsilon$ $X$ $Y$ $\varepsilon$ $\beta_0,~\beta_1,~\sigma^2_\varepsilon)$ $X$ $\sigma^2_\varepsilon$

Y = β_{0} + β_{1} X + ε where ε \sim N (0, f (X)) where f (X) = \exp (γ_{0} + γ_{1} X) and γ_{1} \neq 0

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, f(X)) \\ ~ \\ \text{where } f(X)=\exp(\gamma_0+\gamma_1 X) \\ \text{and }\gamma_1\ne 0$

X

$X$

f (X)

$f(X)$

X

$X$

$X$ . No entanto, costumo pensar que é melhor olhar para as parcelas. O @Penquin_Knight fez um bom trabalho ao mostrar como é a variação constante, plotando os resíduos de um modelo em que a homocedasticidade é obtida em relação aos valores ajustados. A heterocedasticidade também pode ser detectada em um gráfico dos dados brutos ou em um gráfico de localização de escala (também chamado de nível de dispersão). R convenientemente desenha o último para você com uma chamada para plot.lm(model, which=2); é a raiz quadrada dos valores absolutos dos resíduos em relação aos valores ajustados, com uma curva de baixa sobreposição útil. Você deseja que o ajuste do lowess seja plano, não inclinado.

Considere os gráficos abaixo, que comparam a aparência dos dados homoscedásticos e heterocedásticos nesses três tipos diferentes de figuras. Observe a forma do funil para as duas parcelas heterocedásticas superiores e a linha de menor inclinação inclinada para cima na última.

insira a descrição da imagem aqui

Para completar, eis o código que eu usei para gerar esses dados:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

— - Reinstate Monica
fonte

obrigado, é muito útil. Você também pode explicar por que precisamos esta hipótese em uma linguagem de leigo

— Mukul

De nada, @Mukul. A suposição de homoscedasticidade (variação constante) é necessária para fazer do estimador OLS (ou seja, o software de procedimento padrão usado para estimar betas) o procedimento de estimativa que produzirá distribuições amostrais de betas que possuem os erros padrão mais estreitos de todos os procedimentos de estimativa que produzem distribuições de amostragem centradas no valor real. Ou seja, é necessário que o estimador OLS seja o estimador imparcial de variância mínima .

— gung - Reintegrar Monica

p

$p$

(p (1 - p)) / n)

$(p(1-p))/n)$

@gung no seu comentário você coloca itálico em todas as palavras da frase estimador imparcial de variância mínima. Entendo que, com heterocedasticidade, o estimador se tornará menos eficiente (mais variação), mas será tendencioso também?

— user1205901 - Restabelece Monica

@ user1205901, ele permanece imparcial.

— gung - Restabelece Monica