Observe que a suposição de linearidade de que você está falando diz apenas que a média condicional de dada X i é uma função linearYiXi . Você não pode usar o valor de para testar esta hipótese.R2
Isto é porque é meramente a correlação quadrados entre os valores observados e preditos e o valor do coeficiente de correlação não determinam unicamente a relação entre X e Y (ou de outra forma linear) e ambos os dois cenários seguintes são possíveis: R2XY
alto, mas a suposição de linearidade ainda está errada de uma maneira importanteR2
baixo, mas a suposição de linearidade ainda está satisfeitaR2
Vou discutir cada um por sua vez:
(1) alto, mas a suposição de linearidade ainda está errada de uma maneira importante:R2 O truque aqui é manipular o fato de que a correlação é muito sensível aos valores extremos . Suponha que você tenha preditores que são gerados a partir de uma distribuição de mistura que é normal normal 99 % do tempo e uma massa pontual em M o outro 1 % e uma variável de resposta que éX1,...,Xn99%M1%
Yi={ZiMif Xi≠Mif Xi=M
Zi∼N(μ,1)Mμμ=0,M=105XiYi
u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1
YiXiYiXiXi=M
R2XiYi
Yi=β0+β1Xi+εi
YiXiXivar(εi)=σ2β1R2
x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698
R2
Re: O que fazer quando a suposição de linearidade não é atendida e transformar os IVs também não ajuda? !!
Quando a não linearidade é um problema, pode ser útil examinar gráficos dos resíduos versus cada preditor - se houver algum padrão perceptível, isso pode indicar não linearidade nesse preditor. Por exemplo, se esse gráfico revelar uma relação "em forma de tigela" entre os resíduos e o preditor, isso poderá indicar um termo quadrático ausente nesse preditor. Outros padrões podem indicar uma forma funcional diferente. Em alguns casos, pode ser que você não tenha tentado corrigir a transformação ou que o modelo verdadeiro não seja linear em nenhuma versão transformada das variáveis (embora seja possível encontrar uma aproximação razoável).
R2