Esse problema tem uma sensação exploratória. John Tukey descreve muitos procedimentos para explorar a heterocedasticidade em seu clássico, Exploratory Data Analysis (Addison-Wesley 1977). Talvez o mais diretamente útil seja uma variante de seu " enredo esquemático errante ". Isso divide uma variável (como o valor previsto) em compartimentos e usa resumos de m-letras (generalizações de boxplots) para mostrar a localização, a expansão e o formato da outra variável para cada compartimento. As estatísticas da letra m são mais suavizadas, a fim de enfatizar os padrões gerais em vez dos desvios de chance.
Uma versão rápida pode ser preparada explorando o boxplot
procedimento no R
. Ilustramos com dados simulados fortemente heterocedásticos:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
![Dados](https://i.stack.imgur.com/i3gnk.png)
Vamos obter os valores e resíduos previstos da regressão OLS:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
Aqui, então, está o gráfico esquemático errante, usando caixas de contagem igual para os valores previstos. Eu uso lowess
para um liso rápido e sujo.
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
![Gráfico esquemático errante](https://i.stack.imgur.com/lUUqx.png)
A curva azul suaviza as medianas. Sua tendência horizontal indica que a regressão geralmente é um bom ajuste. As outras curvas suavizam as extremidades da caixa (quartis) e as cercas (que geralmente são valores extremos). Sua forte convergência e subsequente separação testemunham a heterocedasticidade - e nos ajudam a caracterizá-la e quantificá-la.
(Observe a escala não linear no eixo horizontal, refletindo a distribuição dos valores previstos. Com um pouco mais de trabalho, esse eixo pode ser linearizado, o que às vezes é útil.)