A faixa cinza é uma faixa de confiança para a linha de regressão. Não estou familiarizado o suficiente com o ggplot2 para saber com certeza se é uma banda de confiança de 1 SE ou uma faixa de confiança de 95%, mas acredito que seja a primeira ( Edit: evidentemente é um IC de 95% ). Uma faixa de confiança fornece uma representação da incerteza sobre sua linha de regressão. Em certo sentido, você poderia pensar que a verdadeira linha de regressão é tão alta quanto o topo da banda, tão baixa quanto o fundo, ou oscilando de maneira diferente dentro da banda. (Observe que essa explicação pretende ser intuitiva e não é tecnicamente correta, mas a explicação totalmente correta é difícil para a maioria das pessoas.)
Você deve usar a faixa de confiança para ajudá-lo a entender / pensar sobre a linha de regressão. Você não deve usá-lo para pensar nos pontos de dados brutos. Lembre-se de que a linha de regressão representa a média de em cada ponto em X (se você precisar entender isso mais detalhadamente, pode ajudar você a ler minha resposta aqui: Qual é a intuição por trás das distribuições gaussianas condicionais? ). Por outro lado, você certamente não espera que todos os pontos de dados observados sejam iguais à média condicional. Em outras palavras, você não deve usar a faixa de confiança para avaliar se um ponto de dados é externo. YX
( Editar: esta nota é periférica para a questão principal, mas procura esclarecer um ponto para o OP. )
Uma regressão polinomial não é uma regressão não linear, mesmo que o que você recebe não pareça uma linha reta. O termo 'linear' tem um significado muito específico em um contexto matemático, especificamente, de que os parâmetros que você está estimando - os betas - são todos coeficientes. Uma regressão polinomial significa apenas que suas covariáveis são , X 2 , X 3 etc., ou seja, elas têm uma relação não linear entre si, mas seus betas ainda são coeficientes, portanto, ainda é um modelo linear. Se seus betas fossem, digamos, expoentes, você teria um modelo não linear. XX2X3
Em suma, se uma linha parece reta não tem nada a ver com o fato de um modelo ser linear ou não. Quando você ajusta um modelo polinomial (digamos, com e X 2 ), o modelo não 'sabe' que, por exemplo, X 2 é na verdade apenas o quadrado de X 1 . Ele acha que essas são apenas duas variáveis (embora reconheça que existe alguma multicolinearidade). Assim, na verdade, é apropriado um regressão (hetero / liso) avião num espaço tridimensional, em vez de um (curvadas) de regressão linha num espaço bidimensional. Isso não é útil para nós para pensar, e de fato, extremamente difícil ver desde X 2XX2X2X1X2é uma função perfeita de . Como resultado, não nos incomodamos em pensar dessa maneira e nossos gráficos são realmente projeções bidimensionais no plano ( X , Y ) . No entanto, no espaço apropriado, a linha é realmente 'reta' em algum sentido. X( X, Y)
De uma perspectiva matemática, um modelo é linear se os parâmetros que você está tentando estimar forem coeficientes. Para esclarecer melhor, considere a comparação entre o modelo de regressão linear padrão (OLS) e um modelo de regressão logística simples apresentado de duas formas diferentes:
ln ( π ( Y )
Y= β0 0+ β1X+ ε
em( π( Y)1 - π( Y)) = β0 0+β1X
π( Y) = exp( β0 0+ β1X)1 + exp( β0 0+ β1X)
βββDiferença entre os modelos logit e probit .)