Para abordar a primeira pergunta , considere o modelo
Y=X+sin(X)+ε
com iid de média zero e variância finita. À medida que o intervalo de (considerado fixo ou aleatório) aumenta, passa para 1. No entanto, se a variação de for pequena (cerca de 1 ou menos), os dados serão "notavelmente não lineares". Nas plotagens, .X R 2 ε v a r (εXR2εvar(ε)=1
Aliás, uma maneira fácil de obter um pequeno é dividir as variáveis independentes em intervalos estreitos. A regressão (usando exatamente o mesmo modelo ) em cada intervalo terá um baixo, mesmo quando a regressão completa baseada em todos os dados tiver um alto . Contemplar esta situação é um exercício informativo e uma boa preparação para a segunda pergunta.R2R 2R2R2
Os dois gráficos a seguir usam os mesmos dados. O para a regressão completa é 0,86. Os para as fatias (de largura 1/2 de -5/2 a 5/2) são 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,12, 0,01 , .00, lendo da esquerda para a direita. De qualquer forma, os ajustes melhoram na situação fatiada, porque as 10 linhas separadas podem estar mais em conformidade com os dados em seus intervalos estreitos. Embora o para todas as fatias esteja muito abaixo do completo , nem a força do relacionamento, a linearidade nem qualquer aspecto dos dados (exceto o intervalo de usado para a regressão) mudou.R 2 R 2 R 2R2R2R2R2X
(Pode-se objetar que esse procedimento de fatiar altera a distribuição de Isso é verdade, mas, no entanto, corresponde ao uso mais comum de na modelagem de efeitos fixos e revela o grau em que está nos falando sobre o variação de na situação de efeitos aleatórios. Em particular, quando é obrigado a variar dentro de um intervalo menor de sua faixa natural, geralmente cai.)R 2 R 2 XXR2R2XR 2XR2
O problema básico com é que depende de muitas coisas (mesmo quando ajustado em regressão múltipla), mas principalmente da variação das variáveis independentes e da variação dos resíduos. Normalmente, nada nos diz sobre "linearidade" ou "força do relacionamento" ou mesmo "bondade de ajuste" para comparar uma sequência de modelos.R2
Na maioria das vezes, você pode encontrar uma estatística melhor que . Para seleção de modelo, você pode procurar em AIC e BIC; para expressar a adequação de um modelo, observe a variação dos resíduos. R2
Isso nos leva finalmente à segunda pergunta . Uma situação em que pode ter alguma utilidade é quando as variáveis independentes são definidas para valores padrão, essencialmente controlando o efeito de sua variação. Então é realmente um proxy para a variação dos resíduos, adequadamente padronizados. 1 - R 2R21−R2