É uma boa pergunta, porque "quantidades diferentes" não parecem ser uma grande explicação.
Há duas razões importantes para se desconfiar de usar para comparar esses modelos: é muito bruto ( realmente não avalia a qualidade do ajuste ) e será inadequado para pelo menos um dos modelos. Esta resposta aborda esse segundo problema.R2
Tratamento Teórico
R 2 yR2 compara a variação dos resíduos do modelo com a variação das respostas. A variação é um desvio aditivo quadrado médio de um ajuste. Como tal, podemos entender como comparando dois modelos da resposta . R2y
O modelo "base" é
yi=μ+δi(1)
onde é um parâmetro (a resposta média teórica) e são "erros" aleatórios independentes, cada um com média zero e uma variação comum de .δ i τ 2μδiτ2
O modelo de regressão linear apresenta os vetores como variáveis explicativas:xi
yi=β0+xiβ+εi.(2)
O número e o vetor são os parâmetros (a interceptação e as "inclinações"). O novamente são erros aleatórios independentes, cada um com média zero e variância comum . β ε i σ 2β0βεiσ2
τ 2 - σ 2 τ 2R2 estima a redução na variância, , em comparação com a variância original .τ2−σ2τ2
Quando você usa logaritmos e usa menos quadrados para ajustar-se ao modelo , você está implicitamente comparando um relacionamento da forma
log(yi)=ν+ζi(1a)
para um dos formulários
log(yi)=γ0+xiγ+ηi.(2a)
São exatamente como os modelos e mas com respostas de log. Eles não são equivalentes aos dois primeiros modelos, no entanto. Por exemplo, exponenciar os dois lados de daria(1)(2)(2a)
yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).
Os termos de erro agora multiplicam o relacionamento subjacente . Conseqüentemente, as variações das respostas sãoexp(ηi)yi=exp(γ0+xiγ)
Var(yi)=exp(γ0+xiγ)2Var(eηi).
As variações dependem do . xi Esse não é o modelo , que supõe que todas as variações são iguais a uma constante .(2)σ2
Normalmente, apenas um desses conjuntos de modelos pode ser uma descrição razoável dos dados. A aplicação do segundo conjunto e quando o primeiro conjunto e for um bom modelo, ou o primeiro quando o segundo for bom, equivale a trabalhar com um conjunto de dados heteroscedástico não-linear, que, portanto, deve se ajustar mal a uma regressão linear. Quando qualquer uma dessas situações é o caso, podemos esperar que o melhor modelo exiba o maior . No entanto, e se não for o caso? Ainda podemos esperar que o maior nos ajude a identificar o melhor modelo?(1a)(2a)(1)(2)R2R2
Análise
Em certo sentido, essa não é uma boa pergunta, porque, se nenhum dos modelos for apropriado, devemos encontrar um terceiro modelo. No entanto, a questão diante de nós diz respeito à utilidade de em nos ajudar a fazer essa determinação. Além disso, muitas pessoas pensam primeiro sobre a forma da relação entre e - é linear, logarítmica, é outra coisa - sem se preocupar com as características dos erros de regressão ou . Consideremos, portanto, uma situação em que nosso modelo acerta o relacionamento, mas está errado sobre sua estrutura de erros ou vice-versa .R2xyεiηi
Esse modelo (que geralmente ocorre) é um mínimo de quadrados adequado a um relacionamento exponencial,
yi=exp(α0+xiα)+θi.(3)
Agora, o logaritmo de é uma função linear de , como em , mas os termos de erro são aditivos , como em . Nesses casos, pode nos induzir a escolher o modelo com o relacionamento errado entre e .yx(2a)θi(2)R2xy
Aqui está uma ilustração do modelo . Existem observações para (um vetor 1 igualmente distribuído entre e ). O painel esquerdo mostra os dados originais enquanto o painel direito mostra os dados transformados . As linhas vermelhas tracejadas traçam o verdadeiro relacionamento subjacente, enquanto as linhas azuis sólidas mostram os mínimos quadrados. Os dados e o verdadeiro relacionamento são os mesmos nos dois painéis: apenas os modelos e seus ajustes diferem.(3)300xi1.01.6(x,y)(x,log(y))
O ajuste às respostas do log à direita claramente é bom: quase coincide com o verdadeiro relacionamento e ambos são lineares. O ajuste às respostas originais à esquerda é claramente pior: é linear enquanto o verdadeiro relacionamento é exponencial. Infelizmente, possui um valor notavelmente maior de : comparação com . É por isso que não devemos confiar em para nos levar ao melhor modelo. É por isso que não devemos ficar satisfeitos com o ajuste, mesmo quando é "alto" (e em muitas aplicações, um valor de seria considerado realmente alto). 0,70 0,56 R 2 R 2 0,70R20.700.56R2R20.70
Aliás, uma maneira melhor de avaliar esses modelos inclui testes de adequação (que indicariam a superioridade do modelo de log à direita) e gráficos de diagnóstico para estacionariedade dos resíduos (o que destacaria problemas nos dois modelos). Tais avaliações levariam naturalmente uma a um ajuste de mínimos quadrados ponderados de ou diretamente ao próprio modelo , que teria que ser ajustado usando métodos de máxima verossimilhança ou mínimos quadrados não lineares.( 3 )log(y)(3)