Eu tenho uma pergunta filosófica a respeito do viés variável omitido.
Temos o modelo de regressão típico (modelo de população) onde as amostras são e, em seguida condições pelas quais as estimativas do OLS se comportam muito bem.( Y , X 1 , . . . , X n )
Então, sabemos que, se omitirmos uma das principais variáveis, , isso pode as estimativas de . Isso afetaria, pelo menos, o efeito estimado do restante das variáveis em , e também os testes de hipótese sobre , pois os valores previstos não são confiáveis.β 0 , β 1 , . . . , Β k - 1 , β k + 1 , . . . , Β n Y p 1 , β 2 , . . .
O fato é que não sabemos quais variáveis estão no verdadeiro modelo populacional. Em vez disso, temos vários candidatos dos quais devemos analisar e descobrir o subconjunto mais apropriado. Esse processo de seleção de variáveis utiliza estimativas OLS e testes de hipótese novamente. Com base nisso, rejeitamos ou incluímos variáveis diferentes. Mas como cada modelo candidato está omitindo variáveis relevantes (você nunca será capaz de encontrar o modelo verdadeiro), essas decisões não se baseariam em resultados tendenciosos? Por que então devemos confiar neles?
(Estou pensando no método progressivo avançado, por exemplo, onde você escolhe uma variável e depois adiciona o restante. Você compara os modelos que fazem inferência e acho que as variáveis omitidas podem estar atrapalhando tudo.)
Eu nunca fiquei muito preocupado com esse tópico até começar a pensar nele e tenho certeza de que estou errado em algum lugar.
samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.
é que realmente o que você quis dizer ou fez com que algumas de suas frases sejam cortadas. Além disso, você tem um erro de ortografia no título da pergunta.