Parece que você está usando R
. Nesse caso, observe que você pode identificar pontos em um gráfico de dispersão usando ? Identifique . Eu acho que há várias coisas acontecendo aqui. Primeiro, você tem um ponto muito influente no gráfico de LN_RT_vol_in ~ LN_AT_vol_in
(o destacado) em cerca de (0,2, 1,5). É muito provável que este seja o resíduo padronizado de cerca de -3,7. O efeito desse ponto será achatar a linha de regressão, inclinando-a mais horizontal do que a linha acentuadamente ascendente que você teria obtido. Um efeito disso é que todos os seus resíduos serão girados no sentido anti-horário em relação ao local onde estariam localizados dentro da residual ~ predicted
trama (pelo menos ao pensar em termos dessa covariável e ignorar a outra).
No entanto, a aparente linha reta de resíduos que você vê ainda estaria lá, pois eles existem em algum lugar na nuvem tridimensional de seus dados originais. Eles podem ser difíceis de encontrar em qualquer uma das parcelas marginais. Você pode usar a função identificar () para ajudar e também pode usar o pacote rgl para criar um gráfico de dispersão 3D dinâmico que você pode girar livremente com o mouse. No entanto, observe que os resíduos da linha reta estão todos abaixo de 0 em seu valor previsto e têm abaixo de 0 resíduos (ou seja, estão abaixo da linha de regressão ajustada); que fornece uma grande dica de onde procurar. Olhando novamente para o seu enredo deLN_RT_vol_in ~ LN_AT_vol_in
, Acho que posso vê-los. Existe um aglomerado bastante reto de pontos na diagonal para baixo e para a esquerda a partir de (-.01, -1.00) na borda inferior da nuvem de pontos naquela região. Eu suspeito que esses são os pontos em questão.
Em outras palavras, os resíduos parecem assim porque já estão em algum lugar do espaço de dados. Em essência, é isso que @ttnphns está sugerindo, mas não acho que seja uma constante em nenhuma das dimensões originais - é uma constante em uma dimensão em ângulo aos seus eixos originais. Concordo ainda com @ MichaelChernick que essa retidão aparente no gráfico residual é provavelmente inofensiva, mas que seus dados não são realmente muito normais. No entanto, eles são um pouco normais, e você parece ter um número decente de dados; portanto, o CLT pode cobrir você, mas convém inicializar apenas por precaução. Finalmente, eu me preocupo que esse 'outlier' esteja gerando seus resultados; uma abordagem robusta provavelmente é merecida.