Onde está a variação compartilhada entre todos os IVs em uma equação de regressão linear múltipla?


10

Em uma equação de regressão linear múltipla, se os pesos beta refletirem a contribuição de cada variável independente individual acima e além da contribuição de todos os outros IVs, onde na equação de regressão a variação é compartilhada por todos os IVs que prevêem o DV?

Por exemplo, se o diagrama de Venn exibido abaixo (e retirado da página 'about' dos CV aqui: https://stats.stackexchange.com/about ) fosse rotulado como 3 IVs e 1 DV, onde a área com o asterisco entraria na equação de regressão múltipla?

insira a descrição da imagem aqui


4
Não vejo necessidade de voto negativo aqui. Eu acho que essa pergunta chega ao que está acontecendo na regressão múltipla em um nível fundamental e oferece uma oportunidade para explicar algo sobre RM que, de outra forma, nunca seria discutido.
gung - Restabelece Monica

Respostas:


8

Para entender o que esse diagrama pode significar, precisamos definir algumas coisas. Digamos que o diagrama de Venn exiba a variação sobreposta (ou compartilhada) entre quatro variáveis ​​diferentes, e que queremos prever o nível do recorrendo ao nosso conhecimento sobre , e . Ou seja, queremos ser capazes de reduzir a incerteza (ou seja, variação) no da variação nula para a variação residual. Quão bem isso pode ser feito? Essa é a pergunta que um diagrama de Venn está respondendo para você. WikiDiggForumBlogWiki

Cada círculo representa um conjunto de pontos e, portanto, uma quantidade de variação. Na maior parte, estamos interessados ​​na variação noW i k i R 20,35 D i g g B l o g F o r u mWiki, mas a figura também exibe as variações nos preditores. Há algumas coisas a serem observadas sobre nossa figura. Primeiro, cada variável tem a mesma quantidade de variação - todas têm o mesmo tamanho (embora nem todos usem os diagramas de Venn tão literalmente). Além disso, existe a mesma quantidade de sobreposição, etc., etc. Uma coisa mais importante a ser observada é que há muita sobreposição entre as variáveis ​​preditoras. Isso significa que eles estão correlacionados. Essa situação é muito comum quando se lida com dados secundários (arquivo), pesquisa observacional ou cenários de previsão do mundo real. Por outro lado, se esse fosse um experimento planejado, provavelmente implicaria projeto ou execução deficiente. Para continuar com este exemplo por mais um pouco, podemos ver que nossa capacidade preditiva será moderada; grande parte da variabilidadeWiki permanece como variabilidade residual após todas as variáveis ​​terem sido usadas (observando o diagrama, eu acho que ). Outro aspecto a ser observado é que, depois que o e o foram inseridos no modelo, o responde por nenhuma variação no .R2.35DiggBlogForumWiki

Agora, depois de ajustar um modelo com vários preditores, as pessoas geralmente querem testá- los para ver se estão relacionadas à variável de resposta (embora não esteja claro, isso é tão importante quanto as pessoas parecem acreditar). Nosso problema é que, para testar esses preditores, devemos particionar a soma dos quadrados e, como nossos preditores estão correlacionados, há SS que podem ser atribuídos a mais de um preditor. De fato, na região com asterisco, o SS pode ser atribuído a qualquer um dos três preditores. Isso significa que não há partição exclusiva do SS e, portanto, nenhum teste exclusivo. Como esse problema é tratado depende do tipo de SS que o pesquisador usa eoutros julgamentos feitos pelo pesquisador . Como muitos aplicativos de software retornam SS tipo III por padrão, muitas pessoas jogam fora as informações contidas nas regiões sobrepostas sem perceber que fizeram uma chamada de julgamento . Eu explico essas questões, os diferentes tipos de SS e entro em alguns detalhes aqui .

A pergunta, como afirmado, pergunta especificamente sobre onde tudo isso aparece na equação betas / regressão. A resposta é que não. Algumas informações sobre isso estão contidas na minha resposta aqui (embora você precise ler um pouco as entrelinhas).


Olá Gung, Obrigado por sua postagem. É muito interessante e abriu meus olhos em algumas áreas. No entanto, estou tendo problemas para ler nas entrelinhas da postagem à qual você vinculou. Portanto, minha pergunta permanece: em uma equação de regressão linear múltipla, se os pesos beta refletem a contribuição de cada variável independente individual acima e além da contribuição de todos os outros IVs, onde na equação de regressão está a variação compartilhada por todos os IVs que prevê o DV?
Joel W.

Sim, vai ser bem difícil de ver. O ponto é que há uma diferença fundamental entre a questão de 1 como particionar o SS para teste e 2 estimar os betas. 1 diz respeito à atribuição de SS a qual preditor; 2 escolhe valores ótimos para os betas. A sobreposição aparece no primeiro, não no último. Se você regredisse o no e salvasse os resíduos, previsse esses resíduos no e salvasse os resíduos-2 etc. (isso é inapropriado, BTW), você veria os betas flutuando descontroladamente. Mas o Mult Reg estima todos os betas simultaneamente , para que não apareça. WikiDiggForum
gung - Restabelece Monica

Se "A sobreposição aparece no primeiro e não no último", como a equação de regressão pode refletir a variação compartilhada? Se os Betas indicam a contribuição de cada IV quando os efeitos de todos os outros IVs são removidos estatisticamente, que parte da fórmula de regressão reflete o poder preditivo da variação compartilhada removida? Ou, como a equação de regressão mostra o que aconteceria com o Y previsto, se você incrementar um dos IVs em 1 se a sobreposição não for refletida no Betas? Uma terceira pergunta: em uma análise de RM dos dados subjacentes ao diagrama de Venn, o Fórum seria beta = 0?
Joel W.

A sobreposição está no teste , não nos betas - não sei de que outra forma colocar isso. Cada beta denota o efeito na variável resposta de uma alteração de 1 unidade na covariável, com todo o resto mantido constante ; um determinado beta quase certamente não seria o mesmo se as outras covariáveis ​​fossem removidas do modelo. Se o diagrama de Venn refletir com precisão o verdadeiro processo de geração de dados, o valor verdadeiro de , mas as estimativas empíricas basicamente nunca são exatamente iguais a 0 na prática. βF=0
gung - Restabelece Monica

11
@ MarkWhite, a resposta do aluno é boa. A afirmação de que quando X1 e X2 estão perfeitamente correlacionados, seus betas são metade não está correta; quando r = 1, o modelo não é identificável (cf, aqui ). À medida que r se aproxima de 1, os betas estimados dependerão dos relacionamentos nos dados da amostra e podem variar amplamente de amostra para amostra.
gung - Restabelece Monica

5

Peter Kennedy tem uma boa descrição dos diagramas de Ballentine / Venn para regressão em seu livro e artigo do JSE , incluindo casos em que eles podem se desviar.

A essência é que a variação da área estrelada é descartada apenas para estimar e testar os coeficientes da inclinação. Essa variação é adicionada novamente com o objetivo de prever e calcular .R2


R2

Realmente e feito.
Dimitriy V. Masterov

A área com estrela é usada para calcular y previsto? Em caso afirmativo, onde na fórmula de previsão a área com estrela contribui para o y previsto? Em outras palavras, que termo ou termos na fórmula de previsão refletem a área com estrela?
Joel W.

3

Sei que esse é um tópico (muito) datado, mas, como um de meus colegas me fez essa mesma pergunta esta semana e não encontrou nada na Web que pudesse apontá-lo, pensei em adicionar meus dois centavos "para a posteridade". aqui. Não estou convencido de que as respostas fornecidas até o momento respondam à pergunta do OP.

Vou simplificar o problema para envolver apenas duas variáveis ​​independentes; é muito simples estendê-lo para mais de dois. Considere o seguinte cenário: duas variáveis ​​independentes (X1 e X2), uma variável dependente (Y), 1000 observações, as duas variáveis ​​independentes estão altamente correlacionadas entre si (r = 0,99) e cada variável independente está correlacionada com a dependente variável (r = 0,60). Sem perda de generalidade, padronize todas as variáveis ​​para uma média de zero e um desvio padrão de uma, para que o termo de interceptação seja zero em cada uma das regressões.

Executar uma regressão linear simples de Y em X1 produzirá um quadrado de r de 0,36 e um valor de b1 de 0,6. Da mesma forma, executar uma regressão linear simples de Y em X2 produzirá um quadrado de r de 0,36 e um valor de b1 de 0,6.

Executar uma regressão múltipla de Y em X1 e X2 produzirá um quadrado de r apenas um pouquinho maior que 0,36, e ambos b1 e b2 assumem o valor de 0,3. Assim, a variação compartilhada em Y é capturada em AMB1 e b2 (igualmente).

Eu acho que o OP pode ter feito uma suposição falsa (mas totalmente compreensível): a saber, quando X1 e X2 se aproximam cada vez mais de serem perfeitamente correlacionados, seus valores b na equação de regressão múltipla se aproximam cada vez mais de ZERO. Esse não é o caso. De fato, quando X1 e X2 se aproximam cada vez mais de serem perfeitamente correlacionados, seus valores b na regressão múltipla se aproximam cada vez mais da metade do valor b na regressão linear simples de qualquer um deles. No entanto, como X1 e X2 se aproximam cada vez mais de serem perfeitamente correlacionados, o ERRO PADRÃO de b1 e b2 se aproxima cada vez mais do infinito, de modo que os valores t convergem em zero. Portanto, os valores t convergirão para zero (ou seja, nenhuma relação linear ÚNICA entre X1 e Y ou X2 e Y),

Portanto, a resposta para a pergunta do OP é que, à medida que a correlação entre X1 e X2 se aproxima da unidade, CADA dos coeficientes de inclinação parcial se aproxima de contribuir igualmente para a previsão do valor Y, mesmo que nenhuma variável independente ofereça qualquer explicação ÚNICA do dependente. variável.

Se você deseja verificar isso empiricamente, gere um conjunto de dados fabricado (... usei uma macro SAS denominada Corr2Data.sas ...) que possui as características descritas acima. Confira os valores b, os erros padrão e os valores t: você encontrará que eles são exatamente como descritos aqui.

HTH // Phil


11
Esta é uma explicação fantástica, obrigado. Tentei simular situações diferentes em R e cheguei à conclusão de que você não pode se livrar da variabilidade compartilhada se n for muito grande ou se a correlação entre a saída (Y) e o componenet compartilhado (X1 e X2 ) É muito alto. Mas por que os valores t refletem algo que não são as contribuições exclusivas de X1 e X2, para começar? Se os valores t da regressão refletem as contribuições únicas dos preditores, não devemos ver que a variabilidade compartilhada afeta os valores t, mas o fazemos. Por que é que?
Galit
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.