É possível para


8

No OLS, é possível que o de uma regressão em duas variáveis ​​seja maior que a soma de para duas regressões nas variáveis ​​individuais.R2R2

R2(YUMA+B)>R2(YUMA)+R2(YB)

Edit: Ugh, isso é trivial; é isso que eu ganho por tentar resolver problemas que pensei enquanto estava na academia. Desculpe por perder tempo novamente. A resposta é claramente sim.

YN(0 0,1)

UMAN(0 0,1)

B=Y-UMA

R2(YA+B)=1 , claramente. Mas deve ser 0 no limite e deve ser 0,5 no limite. R2(YA)R2(YB)


Você está perguntando sobre a desigualdade na equação de exibição (envolvendo a soma residual dos quadrados ) ou está perguntando sobre uma desigualdade envolvendo a sentença que precede essa equação, ou seja, envolvendoR2, o coeficiente de determinação?
cardeal

Eu estava interessado em R2; editado para corrigir o problema.
bsdfish

Boa . Também existem boas explicações geométricas.
cardeal

3
Você pode editar sua resposta e colocá-la como uma resposta real, para que a pergunta não permaneça "sem resposta".
Karl

Alguma chance de termos uma resposta intuitiva para isso? E seR2é explicado o percentual de variação, então como explicar mais da variação com o modelo completo do que com um modelo dedicado para cada variável?
Kr6

Respostas:


4

Aqui está um pouco de R que define uma semente aleatória que resultará em um conjunto de dados que o mostra em ação.

set.seed(103)

d <- data.frame(y=rnorm(20, 0, 1),
                a=rnorm(20, 0, 1),
                b=rnorm(20, 0, 1))

m1 <- lm(y~a, data=d)
m2 <- lm(y~b, data=d)
m3 <- lm(y~a+b, data=d)

r2.a <- summary(m1)[["r.squared"]]
r2.b <- summary(m2)[["r.squared"]]
r2.sum <- summary(m3)[["r.squared"]]

r2.sum > r2.a + r2.b

Não é apenas possível (como você já mostrou analiticamente) que não é difícil de fazer. Dadas três variáveis ​​normalmente distribuídas, parece ocorrer cerca de 40% das vezes.


Uau. Você MIT caras devem ter mais tempo do que comumente assumido ;-)
xmjx

Eu estava preso em um longo dia de reuniões. :)
Benjamin Mako Hill

-1

Não é possível Além disso, se A e B estão correlacionados (se seus r é diferente de zero), o rsq da regressão em ambos será menor que a soma dos rsq de suas regressões individuais.

Observe que, mesmo que A e B sejam completamente não correlacionados, os rsqs ajustados (que penalizam por uma taxa baixa de caso para preditor) podem ser ligeiramente diferentes entre as duas soluções.

Talvez você queira compartilhar mais sobre as evidências empíricas que o levaram a um ponto de interrogação.


Você pode repensar isso. Ou tente uma simulação. :)
cardeal

Observe que é exatamente quando UMA e B são altamente correlacionadas que se faz ver a desigualdade declarado na pergunta. :)
cardeal

Considere o seguinte cenário extremo, no qual usarei o método mais convencional X1 e X2 ao invés de UMA e B. Faça uma distribuição normal bivariada (latente). DeixeiYseja a projeção do bivariado normal no vetor próprio com maior valor próprio. DeixeiX1seja a projeção no vetor próprio do menor valor próprio. Para qualquer0 0<ρ<1, deixei X2=ρY+1-ρ2X. Então oR2 para X1 é zero e o R2 para X2pode ser arbitrariamente pequeno. Mas oR2 do X1+X2é sempre 1 (por quê?). Talvez você possa editar sua postagem.
cardeal

...e por X1+X2Quero dizer o modelo que incorpora os dois preditores, não a soma real. Uma notação melhor seria provavelmente através da soma diretaX1X2.
cardeal
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.