É uma ponderada


19

Estimei um modelo linear robusto Rcom pesos MM, usando o rlm()pacote MASS. `R`` não fornece um valor de para o modelo, mas eu gostaria de ter um se for uma quantidade significativa. Também estou interessado em saber se existe algum significado em ter um valor que pesa a variação total e residual da mesma maneira que as observações foram ponderadas na regressão robusta. Meu pensamento geral é que, se, para os propósitos da regressão, estivermos essencialmente com os pesos, dando a algumas das estimativas menos influência, porque são de alguma maneira discrepantes, então talvez, com o objetivo de calcular , também devamos dar essas mesmas estimativas menos influência?R 2 r 2R2R2r2

Eu escrevi duas funções simples para o e o ponderado , eles estão abaixo. Também incluí os resultados da execução dessas funções para o meu modelo, chamado HI9. EDIT: Encontrei a página da web de Adelle Coster da UNSW que fornece uma fórmula que inclui o vetor de pesos no cálculo do cálculo de ambos e da mesma forma que eu fiz, e solicitei uma referência mais formal: http: //web.maths. unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html (ainda está procurando ajuda da Cross Validated sobre como interpretar esse ponderado ).R 2 r 2R2R2R2SSeSStr2

#I used this function to calculate a basic r-squared from the robust linear model
r2 <- function(x){  
+ SSe <- sum((x$resid)^2);  
+ observed <- x$resid+x$fitted;  
+ SSt <- sum((observed-mean(observed))^2);  
+ value <- 1-SSe/SSt;  
+ return(value);  
+ }  
r2(HI9)  
[1] 0.2061147

#I used this function to calculate a weighted r-squared from the robust linear model
> r2ww <- function(x){
+ SSe <- sum((x$w*x$resid)^2); #the residual sum of squares is weighted
+ observed <- x$resid+x$fitted;
+ SSt <- sum((x$w*(observed-mean(observed)))^2); #the total sum of squares is weighted      
+ value <- 1-SSe/SSt;
+ return(value);
+ }
 > r2ww(HI9)
[1] 0.7716264

Obrigado a quem gasta tempo respondendo a isso. Aceite minhas desculpas se já houver alguma referência muito boa sobre isso que eu tenha perdido, ou se meu código acima for difícil de ler (eu não sou um cara de código).


colocar os pesos dentro lm () e levar o R-quadrado de lá (por que re-inventar a roda?)
user603

1
obrigado pela dica sobre como fazer o que fiz de maneira mais eficiente. alguém pode comentar sobre o significado do quadrado r ponderado que eu descrevi / propus?
CraigMilligan

@ user603: Como você realmente colocaria os pesos dentro de lm ()?
histelheim

Apenas para um elogio, o quadrado mínimo ponderado ajustado em R é minimizando a soma (w * e ^ 2), onde e é o resíduo. Portanto, para o seu código de cálculo, todo peso w deve ter uma raiz quadrada.
Yuanhao Lai

Quero enfatizar que não precisamos ter uma média ponderada, pelo menos acredito que, porque um programa que escrevi dê um quadrado ao r perto de 1 com: quadrado r clássico ponderado r quadrado, mas NÃO com r ponderado quadrado, onde a média é ponderada também, eu acho -6 é contra-intuitivo, mesmo para mim, mas acredito que a experiência embora
pierre

Respostas:


22

A resposta a seguir é baseada em: (1) minha interpretação de Willett e Singer (1988) Outra nota de advertência sobre o quadrado-R: é usado na análise de regressão ponderada de mínimos quadrados. O estatístico americano. 42 (3) pp236-238, e (2) a premissa de que a regressão linear robusta é essencialmente regressão de mínimos quadrados ponderados com os pesos estimados por um processo iterativo.

A fórmula que dei na pergunta para r2w precisa de uma pequena correção para corresponder à equação 4 em Willet e Singer (1988) para r2wls: o cálculo de SSt também deve usar uma média ponderada:

the correction is SSt <- sum((x$w*observed-mean(x$w*observed))^2)].

Qual é o significado desse quadrado r corrigido (corrigido)? Willett e Singer interpretam como: "o coeficiente de determinação no conjunto de dados transformado [ponderado]. É uma medida da proporção da variação no Y ponderado que pode ser explicada pelo X ponderado e é a quantidade que é produzida como R2 pelos principais pacotes estatísticos de computador quando uma regressão WLS é executada ".

É significativo como uma medida da bondade do ajuste? Isso depende de como é apresentado e interpretado. Willett e Singer advertem que é tipicamente um pouco maior do que o quadrado obtido por r obtido na regressão de mínimos quadrados ordinários, e o valor alto incentiva a exibição proeminente ... mas essa exibição pode ser enganosa se for interpretada no sentido convencional de r -squared (como a proporção de não ponderadavariação explicada por um modelo). Willett e Singer propõem que uma alternativa menos "enganosa" é pseudoR2wls (sua equação 7), que é equivalente à minha função r2 na pergunta original. Em geral, Willett e Singer também alertam que não é bom confiar em qualquer r2 (até mesmo em seus pseudor2wls) como uma única medida da qualidade do ajuste. Apesar dessas precauções, toda a premissa de regressão robusta é que alguns casos são julgados 'não tão bons' e não contam tanto no ajuste do modelo, e pode ser bom refletir isso em parte do processo de avaliação do modelo. O quadrado r ponderado descrito pode ser uma boa medida da qualidade do ajuste - desde que a interpretação correta seja claramente apresentada na apresentação e não seja considerada a única avaliação da qualidade do ajuste.


1
(+1). Obrigado por dedicar um tempo para responder.
user603

1

@CraigMilligan. Não deveria:

  • o peso esteja fora do parêntese ao quadrado
  • a média ponderada seja calculada de acordo com a qual também podemos usarsum(x$w*observed)/sum(x$w)weighted.mean(observed,x$w)

Algo assim:

r2ww <- function(x){
  SSe <- sum(x$w*(x$resid)^2)
  observed <- x$resid+x$fitted
  SSt <- sum(x$w*(observed-weighted.mean(observed,x$w))^2)
  value <- 1-SSe/SSt;
  return(value);
}
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.