Problemas fictícios de interceptação de variáveis


10

Estou executando uma grande regressão OLS em que todas as variáveis ​​independentes (cerca de 400) são variáveis ​​fictícias. Se tudo estiver incluído, existe uma multicolinearidade perfeita (a armadilha da variável dummy), então eu tenho que omitir uma das variáveis ​​antes de executar a regressão.

Minha primeira pergunta é: qual variável deve ser omitida? Eu li que é melhor omitir uma variável que está presente em muitas das observações, em vez de uma que está presente em apenas algumas (por exemplo, se quase todas as observações são "masculinas" ou "femininas" e apenas algumas são "desconhecidas). ", omita" masculino "ou" feminino "). Isso é justificado?

Depois de executar a regressão com uma variável omitida, sou capaz de estimar o valor do coeficiente da variável omitida porque sei que a média geral de todas as minhas variáveis ​​independentes deve ser 0. Portanto, eu uso esse fato para alterar os valores do coeficiente para todas as variáveis. variáveis ​​incluídas e obtenha uma estimativa para a variável omitida. Minha próxima pergunta é se existe alguma técnica semelhante que possa ser usada para estimar o erro padrão para o valor do coeficiente da variável omitida. Como é necessário refazer a regressão omitindo uma variável diferente (e incluindo a variável que eu havia omitido na primeira regressão), a fim de obter uma estimativa de erro padrão para o coeficiente da variável originalmente omitida.

Por fim, percebo que as estimativas de coeficiente que recebo (depois de re-centrar em torno de zero) variam ligeiramente, dependendo de qual variável é omitida. Em teoria, seria melhor executar várias regressões, cada uma omitindo uma variável diferente, e então calcular a média das estimativas do coeficiente de todas as regressões?


Você poderia esclarecer o que quer dizer com "a média geral de todas as minhas variáveis ​​independentes deve ser 0" e como você sabe disso?
Onestop

Basicamente, quero avaliar todas as variáveis ​​em relação à média (a média de todas as variáveis). Os coeficientes da regressão são relativos à variável omitida. Portanto, quando subtraio a média de todos os coeficientes (incluindo o coeficiente 0 da variável omitida) de cada valor do coeficiente, os valores ajustados passam a ter uma média de 0 e cada valor do coeficiente pode ser visto como a distância da média.
James Davison

Respostas:


8

Você deve obter as estimativas "mesmas", independentemente da variável que você omitir; os coeficientes podem ser diferentes, mas as estimativas de quantidades ou expectativas particulares devem ser as mesmas em todos os modelos.

xi=1

E[yixi]=xiE[yixi=1]+(1xi)E[yixi=0]=E[yixi=0]+[E[yixi=1]E[yixi=0]]xi=β0+β1xi.
zi=1
E[yizi]=ziE[yizi=1]+(1zi)E[yizi=0]=E[yizi=0]+[E[yizi=1]E[yizi=0]]zi=γ0+γ1zi.
yβ0γ0+γ1β0+β1γ0

β1=γ1


4

James, antes de tudo, por que a análise de regressão, mas não a ANOVA (existem muitos especialistas nesse tipo de análise que podem ajudá-lo)? Os prós da ANOVA são que tudo o que realmente interessa são diferenças nas médias de diferentes grupos, descritas por combinações de variáveis ​​fictícias (categorias ou perfis únicos). Bem, se você estudar os impactos de cada uma das variáveis ​​categóricas incluídas, poderá executar a regressão também.

n(1,0)(0,1)(1,1)

Bem, omitir as maiores categorias de perfis parece bom para mim, embora não seja tão importante, pelo menos não está vazio, eu acho. Como você codifica as variáveis ​​de maneira específica, a significância estatística conjunta das variáveis ​​simuladas incluídas (ambas do sexo masculino, poderia ser testada pelo teste F) implica a significância da omitida.

Pode acontecer que os resultados sejam ligeiramente diferentes, mas pode ser que a codificação errada influencie isso?


Peço perdão se minha escrita não estiver clara, é meia-noite na Lituânia.
Dmitrij Celov

Por que seu desconhecido (-1, -1) em vez de (0,0)?
S27i

1

Sem saber a natureza exata de sua análise, você considerou a codificação de efeitos? Dessa forma, cada variável representaria o efeito dessa característica / atributo versus a média geral geral, em vez de uma categoria omitida específica. Acredito que ainda falta um coeficiente para uma das categorias / atributos - a que você atribui um -1. Ainda assim, com tantos manequins, eu pensaria que a grande média daria um grupo de comparação mais significativo do que qualquer categoria omitida em particular.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.