Medidas de heterocedasticidade de resíduos

Este link da Wikipedia lista uma série de técnicas para detectar a heterocedasticidade dos resíduos de OLS. Eu gostaria de aprender qual técnica prática é mais eficiente na detecção de regiões afetadas pela heterocedasticidade.

Por exemplo, aqui a região central do gráfico OLS 'Residuals vs Fitted' parece ter uma variação maior do que os lados do gráfico (não tenho muita certeza dos fatos, mas vamos supor que seja o caso em questão). Para confirmar, observando os rótulos de erro no gráfico QQ, podemos ver que eles correspondem aos rótulos de erro no centro do gráfico Residuals.

Mas como podemos quantificar a região de resíduos que tem uma variação significativamente maior?

heterocedasticidade

regression least-squares heteroscedasticity

— Robert Kubrick
fonte

Não tenho certeza se você está certo de que há uma variação maior no meio. O fato de os discrepantes estarem na região central parece-me provavelmente um resultado do fato de que é aí que está a maioria dos dados. Obviamente, isso não invalida sua pergunta.

— Peter Ellis

O qqplot visa identificar não-normalidade da distribuição e não variações não-homogêneas diretamente.

— 22812 Michael R. Chernick

@ PeterEllis Sim, especifiquei na pergunta que não tenho certeza de que a variação seja diferente, mas eu tinha essa imagem de diagnóstico à mão e pode realmente haver alguma heterocedasticidade no exemplo.

— Robert Kubrick

@MichaelChernick Mencionei apenas o qqplot para ilustrar como os erros mais altos parecem se concentrar no meio do gráfico de resíduos, indicando potencialmente uma variação mais alta nessa área.

— Robert Kubrick

Respostas:

Esse problema tem uma sensação exploratória. John Tukey descreve muitos procedimentos para explorar a heterocedasticidade em seu clássico, Exploratory Data Analysis (Addison-Wesley 1977). Talvez o mais diretamente útil seja uma variante de seu " enredo esquemático errante ". Isso divide uma variável (como o valor previsto) em compartimentos e usa resumos de m-letras (generalizações de boxplots) para mostrar a localização, a expansão e o formato da outra variável para cada compartimento. As estatísticas da letra m são mais suavizadas, a fim de enfatizar os padrões gerais em vez dos desvios de chance.

Uma versão rápida pode ser preparada explorando o boxplotprocedimento no R. Ilustramos com dados simulados fortemente heterocedásticos:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Dados

Vamos obter os valores e resíduos previstos da regressão OLS:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

Aqui, então, está o gráfico esquemático errante, usando caixas de contagem igual para os valores previstos. Eu uso lowesspara um liso rápido e sujo.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

Gráfico esquemático errante

A curva azul suaviza as medianas. Sua tendência horizontal indica que a regressão geralmente é um bom ajuste. As outras curvas suavizam as extremidades da caixa (quartis) e as cercas (que geralmente são valores extremos). Sua forte convergência e subsequente separação testemunham a heterocedasticidade - e nos ajudam a caracterizá-la e quantificá-la.

(Observe a escala não linear no eixo horizontal, refletindo a distribuição dos valores previstos. Com um pouco mais de trabalho, esse eixo pode ser linearizado, o que às vezes é útil.)

— whuber
fonte

Bom exemplo, eu teria pensado que alguma implementação de quantis em execução estava disponível no R (para evitar o problema com as caixas no total). Meio que me lembra enredos . Veja também a extensão de Rob Hyndman em seu pacote Rainbow.

— Andy W

Tipicamente, a heterocedasticidade é modelada usando uma abordagem Breusch-Pagan. Os resíduos da sua regressão linear são então elevados ao quadrado e regredidos nas variáveis em seu modelo linear original. A última regressão é chamada de regressão auxiliar .

$nR^2_a$ $n$ $R^2_a$ $R^2$

Para seus propósitos, você pode se concentrar nos coeficientes individuais desse modelo para ver quais variáveis são mais preditivas de resultados de variação alta ou baixa.

— Charlie
fonte

+1 Mas observe que esses testes são limitados nas formas de heterocedasticidade que podem detectar. Exemplos como o mostrado na minha resposta podem passar, mesmo que a heterocedasticidade seja extremamente forte.

— whuber