Estou executando uma grande regressão OLS em que todas as variáveis independentes (cerca de 400) são variáveis fictícias. Se tudo estiver incluído, existe uma multicolinearidade perfeita (a armadilha da variável dummy), então eu tenho que omitir uma das variáveis antes de executar a regressão.
Minha primeira pergunta é: qual variável deve ser omitida? Eu li que é melhor omitir uma variável que está presente em muitas das observações, em vez de uma que está presente em apenas algumas (por exemplo, se quase todas as observações são "masculinas" ou "femininas" e apenas algumas são "desconhecidas). ", omita" masculino "ou" feminino "). Isso é justificado?
Depois de executar a regressão com uma variável omitida, sou capaz de estimar o valor do coeficiente da variável omitida porque sei que a média geral de todas as minhas variáveis independentes deve ser 0. Portanto, eu uso esse fato para alterar os valores do coeficiente para todas as variáveis. variáveis incluídas e obtenha uma estimativa para a variável omitida. Minha próxima pergunta é se existe alguma técnica semelhante que possa ser usada para estimar o erro padrão para o valor do coeficiente da variável omitida. Como é necessário refazer a regressão omitindo uma variável diferente (e incluindo a variável que eu havia omitido na primeira regressão), a fim de obter uma estimativa de erro padrão para o coeficiente da variável originalmente omitida.
Por fim, percebo que as estimativas de coeficiente que recebo (depois de re-centrar em torno de zero) variam ligeiramente, dependendo de qual variável é omitida. Em teoria, seria melhor executar várias regressões, cada uma omitindo uma variável diferente, e então calcular a média das estimativas do coeficiente de todas as regressões?