O R-quadrado é realmente uma métrica inválida para modelos não lineares?


8

Eu li que o quadrado-R é inválido para modelos não lineares, porque o relacionamento que SSR + SSE = SSTotal não mantém mais. Alguém pode explicar por que isso é verdade?

SSR e SSE são apenas as normas ao quadrado dos vetores de regressão e residuais, cujos componentes são e (Y_i- \ hat {Y_i}) , respectivamente. Enquanto esses vetores forem ortogonais entre si, a relação acima não deve sempre ser mantida, independentemente do tipo de função usada para mapear os valores preditores aos ajustados?ith(Yi^Y¯)(YiYi^)

Além disso, os vetores de regressão e residuais associados a qualquer modelo de mínimos quadrados não devem ser ortogonais, por definição de mínimos quadrados? O vetor residual é a diferença entre o vetor (YiYi¯) e o vetor de regressão. Se o vetor de regressão for tal que o vetor residual / diferença não seja ortogonal a ele, o vetor de regressão poderá ser multiplicado por uma constante, para que agora seja ortogonal ao vetor residual / diferença. Isso também deve reduzir a norma do vetor residual / diferença.

Se eu expliquei isso mal, diga-me e tentarei esclarecer.


11
Como você sempre pode calcular poderia explicar em que sentido poderia ser considerado "inválido"? Com que finalidade exatamente? R2,
whuber

4
Isso depende em parte de como a quantidade é definida. Vejo pouco mal em usar cautelosamente o quadrado da correlação entre a resposta observada e a ajustada como uma estatística descritiva, mas não é necessariamente o que a regressão não linear maximiza. O que é, ou deveria ser, fundamental é que a regressão não linear faça uso de alguma forma funcional com alguma justificativa científica (engenharia, médica, qualquer que seja) ou pelo menos plausibilidade: esse é um contexto que deve definir qual medida de bondade ou mal-estar é adequada muito útil.
Nick Cox

@whuber Desculpe, eu não vi seu comentário quando ele foi originalmente publicado. Eu acho que o quadrado-R é considerado inválido em casos não-lineares por várias razões, mas eu estava focado principalmente na afirmação de que SSE + SSR = / = SSTotal quando a linearidade é violada, porque eu acreditava estar errado.
Greg

Respostas:


6

As somas de quadrados na regressão linear são casos especiais dos valores de desvio mais gerais no modelo linear generalizado. No modelo mais geral, há uma distribuição de respostas com média vinculada a uma função linear das variáveis ​​explicativas (com um termo de interceptação). As três estatísticas de desvio em um GLM são definidas como:

Null Deviance   DTOT=2(^S^0),Explained DevianceDREG=2(^p^0),Residual Deviance  DRES=2(^S^p).

Nessas expressões, o valor é a probabilidade maximizada de log em um modelo saturado (um parâmetro por ponto de dados), é a probabilidade maximizada de log em um modelo nulo (apenas para interceptação ) e é a probabilidade logarítmica maximizada no modelo (termo de interceptação e coeficientes ).^S^0^pp

Essas estatísticas de desvio desempenham um papel análogo às versões em escala das somas de quadrados na regressão linear. É fácil ver que eles satisfazem a decomposição , que é análoga à decomposição das somas de quadrados em regressão linear. De fato, no caso em que você tem uma distribuição de resposta normal com uma função de link linear, obtém um modelo de regressão linear e as estatísticas de desvio são reduzidas para o seguinte:DTOT=DREG+DRES

DTOT=1σ2i=1n(yiy¯)2=1σ2SSTOT,DREG=1σ2i=1n(y^iy¯)2=1σ2SSREG,DRES=1σ2i=1n(yiy^i)2=1σ2SSRES.

Agora, o coeficiente de variação em um modelo de regressão linear é uma estatística de qualidade de ajuste que mede a proporção da variação total na resposta atribuível às variáveis ​​explicativas. Uma extensão natural no caso de um GLM é formar a estatística:

RGLM2=1DRESDTOT=DREGDTOT.

É fácil ver que essa estatística se reduz ao coeficiente de variação no caso especial de regressão linear, uma vez que os valores de escala se cancelam. No contexto mais amplo de um GLM, a estatística tem uma interpretação natural que é análoga à sua interpretação em regressão linear: fornece a proporção do desvio nulo que é explicada pelas variáveis ​​explicativas no modelo.

Agora que vimos como as somas de quadrados na regressão linear se estendem aos desvios em um GLM, podemos ver que o coeficiente de variação regular é inadequado no modelo não linear, pois é específico ao caso de um modelo linear com um termo de erro normalmente distribuído. No entanto, podemos ver que, embora o coeficiente de variação padrão seja inadequado, é possível formar uma analogia apropriada usando os valores de desvio, com uma interpretação análoga.


O desvio residual às vezes é chamado apenas de desvio.


11
Obrigado por post útil. Este R2 1-DRES / DTOT genérico tem um nome btw? Às vezes, vejo-o citado como McFadden, mas acredito que McFadden foi definido como 1-logLik (modelo) / logLik (null_model), que apenas corresponderia à fórmula acima. , mas não para outros modelos). Então, ele tem um nome aceito?
Tom Wenseleers

Tenho certeza de que esse é realmente o pseudo- McFadden . Como você diz, no caso de regressão logística, isso simplifica a estatística de McFadden. R2
Ben - Restabelece Monica

Apenas procurei a referência original, core.ac.uk/download/pdf/6448852.pdf , eqn 57, e o problema parece ser que McFadden definiu esse R2 apenas para um modelo GLM específico em que LL (saturated_model) era zero. Então eu acho que alguém poderia apenas especular como ele o definiria para o caso geral ... É também por esta fórmula incorreta simples que é dada em, por exemplo, books.google.be/… , bem como nos PseudoR2, SAS & Stata do DescTools saída
Tom Wenseleers

Portanto, provavelmente deve ter um nome diferente, pois não é a fórmula que o próprio McFadden deu. Talvez alguém possa se referir a ele como "McFadden generalizado" ou algo assim?
Tom Wenseleers

Talvez, mas mesmo se você adotasse a versão mais ampla, certamente não seria a primeira vez que um conceito recebe o nome de uma pessoa que apenas inventou / descobriu um caso específico. Eu diria que a parte "generalizada" é desnecessária e você poderia razoavelmente chamá-la de coeficiente de McFadden.
Ben - Restabelecer Monica

2

Por que SSE + SSR deve ser igual a SST? Aconteceu ser o caso do modelo linear. Há muitas maneiras de mostrar que ele deve para sob condições de Gauss-Markov. No entanto, ele não precisa se sustentar no caso geral. O ônus é provar que é válido, não que nãoy=Xβ+ε


2
Ele deve conter a ortogonalidade dos e (regressão e residual). Podemos particionar em . Se os dois forem ortogonais, o terceiro somatório acima deve ser igual a zero, pois é o produto interno dos vetores. (YiYi^)(Yi^Y¯)(YiY¯)2((YiYi^)+(Yi^Y¯))2=(YiYi^)2+(Yi^Y¯)2+2(YiYi^)(Yi^Y¯)
Greg

@ Greg, em si ortogonalidade é uma propriedade derivada, não é uma parte de pressupostos de regressão
Aksakal

Eu prefiro pensar nisso no caso 2-D. Digamos que você tenha os vetores A e B no espaço 2-D. Isso é equivalente ao SSTotal e SSR. SSE é a diferença entre SStotal e SSR, ou (A - B). Esses três vetores formam um triângulo.
6138 Greg

Digamos que você esteja mantendo o vetor A constante e escolhendo B de modo que (A - B) seja minimizado (portanto, Mínimos Quadrados). Então, || A - B || é minimizado quando o comprimento de B é igual à projeção de A em B, caso em que B e (A - B) são ortogonais. Se B for maior ou menor que essa projeção, ele pode simplesmente ser multiplicado por uma constante para mudar isso. Portanto, se SSR não é ortogonal ao SSE, então não é o vetor dos mínimos quadrados. Não vejo por que esse raciocínio não pode ser estendido para o espaço vetorial n-dimensional ou para qualquer conjunto de dados de tamanho.
22618 Greg Greg

A projecção é um conceito linear
Aksakal

1

Embora o quadrado R ainda possa ser uma medida defeituosa em modelos não lineares por outras razões, acredito que mostrei suficientemente que a relação SSR + SSE = SSTotal ainda se mantém em um modelo de mínimos quadrados para certas funções não lineares, especialmente aquelas que permitem um termo constante, como modelos polinomiais. Acredito que esta conclusão seja compatível com o que foi publicado nesta discussão, incluindo o que li no link ncbi fornecido, embora não tenha sido possível acessar o relatório completo.

Se alguém tem uma série de valores ajustados y^icom relação a uma série de observações , onde , sendo um termo constante a função de variáveis ​​preditoras, nas quais o vetor de não é ortogonal a , pode-se criar um novo conjunto de valores ajustados modo que , em que c = . Com novos valores ajustados , o vetoryiy^i =A+f(X)= Y¯ +(UMA-Y¯) +f(X)UMAf(X)(YEu^-Y¯)(YEu-YEu^)ZEuZEu=c(YEu^-Y¯)+Y¯(YEu^-Y¯)(YEu-YEu^)/(YEu^-Y¯)2ZEu(ZEu-Y¯)será ortogonal ao vetor de erro e esse novo vetor de erro terá uma soma menor de quadrados que o original . Os foram simplesmente obtidos multiplicando o modelo estimado original por uma constante e adicionando um múltiplo da média das observações, o que é compatível com o modelo de termo constante. Portanto, um modelo de mínimos quadrados sempre deve ter regressão ortogonal e vetores de erro nessas circunstâncias, o que significa que .(YEu-ZEu)(YEu-YEu^)ZEu"c"SSE+SSR=SSTotumaeu

Criei modelos polinomiais em um punhado de conjuntos de dados no trabalho e esse relacionamento se manteve com todos eles. Estou apenas dizendo.


0

R2 é de uso limitado na regressão não linear. Nós o disponibilizamos no GraphPad Prism, mas sugerimos que seja usado de apenas uma maneira:

Observe ao executar uma série de experimentos e deseja garantir que o experimento de hoje seja consistente com outras execuções do experimento. Por exemplo, se você sempre obtém entre 0,90 e 0,95, mas hoje obtém = 0,75, deve suspeitar e procurar com atenção se algo deu errado com os métodos ou reagentes usados ​​naquela experiência em particular. E se um novo funcionário fornecer resultados mostrando de 0,99 usando o mesmo sistema, você deve examinar cuidadosamente quantos "outliers" foram removidos e se alguns dados foram criados.R2R2R2R2

Mais .

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.