Conforme indicado na documentação , plot.lm()
pode retornar 6 gráficos diferentes:
[1] um gráfico de resíduos em relação aos valores ajustados, [2] um gráfico de Localização da escala de sqrt (| resíduos |) em relação aos valores ajustados, [3] um gráfico de QQ normal, [4] um gráfico das distâncias de Cook versus os rótulos de linha, [5] um gráfico de resíduos contra alavancagens e [6] um gráfico das distâncias de Cook contra alavancagem / (1 alavancagem). Por padrão, os três e 5 primeiros são fornecidos. ( minha numeração )
Os gráficos [1] , [2] , [3] e [5] são retornados por padrão. A interpretação [1] é discutida no CV aqui: Interpretando resíduos versus plotagem ajustada para verificar as suposições de um modelo linear . Expliquei a suposição de homoscedasticidade e os gráficos que podem ajudá-lo a avaliá-lo (incluindo gráficos de localização em escala [2] ) no currículo aqui: O que significa ter variação constante em um modelo de regressão linear? Eu discuti qq- plot [3] no CV aqui: QQ plot não coincide com histograma e aqui: PP- plot vs. QQ- plot . Também há uma visão geral muito boa aqui: Como interpretar um gráfico QQ? Então, o que resta é basicamente apenas entender [5] , o gráfico de alavancagem residual.
Para entender isso, precisamos entender três coisas:
- alavancagem,
- resíduos padronizados e
- Distância de Cook.
(X¯, Y¯)Xseja que os resultados obtidos sejam conduzidos por alguns pontos de dados; é isso que esse gráfico pretende ajudar a determinar.
XX¯X
N
Com esses fatos em mente, considere os gráficos associados a quatro situações diferentes:
- um conjunto de dados onde está tudo bem
- um conjunto de dados com um ponto residual de alta alavancagem, mas com baixa padronização
- um conjunto de dados com um ponto residual de baixa alavancagem, mas altamente padronizado
- um conjunto de dados com um ponto residual de alta alavancagem e alto padrão
(X¯, Y¯)21
leverage std.residual cooks.d
high leverage, low residual 0.3814234 0.0014559 0.0000007
low leverage, high residual 0.0476191 3.4456341 0.2968102
high leverage, high residual 0.3814234 -3.8086475 4.4722437
Abaixo está o código que eu usei para gerar esses gráficos:
set.seed(20)
x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)
x2 = c(x1, 30); y2 = c(y1, 20.8)
x3 = c(x1, 19.44); y3 = c(y1, 20.8)
x4 = c(x1, 30); y4 = c(y1, 10)
* Para ajudar a entender como a regressão OLS procura encontrar a linha que minimiza as distâncias verticais entre os dados e a linha, veja minha resposta aqui: Qual é a diferença entre a regressão linear em y com xex com y?