Eu sou um estudante de economia com alguma experiência com econometria e R. Eu gostaria de saber se existe alguma situação em que devemos incluir uma variável em uma regressão, apesar de não ser estatisticamente significativa?
Eu sou um estudante de economia com alguma experiência com econometria e R. Eu gostaria de saber se existe alguma situação em que devemos incluir uma variável em uma regressão, apesar de não ser estatisticamente significativa?
Respostas:
Sim!
O fato de um coeficiente ser estatisticamente indistinguível de zero não implica que o coeficiente seja realmente zero, que o coeficiente é irrelevante. O fato de um efeito não passar por um corte arbitrário para significância estatística não implica que não se deva tentar controlá-lo.
De um modo geral, o problema em questão e o design da sua pesquisa devem orientar o que incluir como regressores.
E não tome isso como uma lista exaustiva. Não é difícil conseguir toneladas mais ...
Uma situação em que isso geralmente ocorre é uma regressão com efeitos fixos .
Digamos que você tenha dados em painel e deseje estimar no modelo:
Estimar este modelo com mínimos quadrados ordinários onde são tratados como efeitos fixos é equivalente a executar mínimos quadrados ordinários com uma variável indicadora para cada indivíduo . eu
De qualquer forma, o ponto é que as variáveis (ou seja, os coeficientes nas variáveis indicadoras) são frequentemente mal estimadas. Qualquer efeito fixo individual é frequentemente estatisticamente insignificante. Mas você ainda inclui todas as variáveis indicadoras na regressão se estiver considerando efeitos fixos.u i
(Observe também que a maioria dos pacotes de estatísticas nem sequer fornece os erros padrão para efeitos fixos individuais quando você usa os métodos internos. Você realmente não se importa com o significado de efeitos fixos individuais. Você provavelmente se preocupa com o significado coletivo deles. .)
Se você estiver ajustando um polinômio de º grau a alguma curva, quase sempre incluirá termos polinomiais de ordem inferior.
Por exemplo, se você estivesse ajustando um polinômio de 2ª ordem, você executaria:
Normalmente, seria bastante estranho forçar e executar y i = b 0 + b 2 x 2 i + ϵ i
mas os estudantes de mecânica newtoniana poderão imaginar exceções.
Digamos que você esteja estimando um modelo de AR (p), incluindo também os termos de ordem inferior. Por exemplo, para um AR (2), você executaria:
E seria estranho executar:
Como o @NickCox menciona, os termos e tendem a andar juntos. Para mais informações, consulte, por exemplo, este documento .pecado
Você deseja incluir variáveis do lado direito quando houver boas razões teóricas para fazê-lo.
E, como discutem outras respostas aqui e no StackExchange, a seleção de variáveis passo a passo pode criar vários problemas estatísticos.
Também é importante distinguir entre:
Neste último caso, é problemático argumentar que o coeficiente não importa. Pode simplesmente ser mal medido.
Sim, existem. Qualquer variável que possa se correlacionar com sua variável de resposta de maneira significativa, mesmo em um nível estatisticamente insignificante, pode confundir sua regressão se ela não estiver incluída. Isso é conhecido como subespecificação e leva a estimativas de parâmetros que não são tão precisas quanto poderiam ser.
https://onlinecourses.science.psu.edu/stat501/node/328
De cima:
Um modelo de regressão é subespecificado (resultado 2) se a equação de regressão estiver faltando uma ou mais variáveis preditivas importantes. Essa situação é talvez o pior cenário, porque um modelo subespecificado gera coeficientes de regressão tendenciosos e previsões tendenciosas da resposta. Ou seja, ao usar o modelo, subestimamos ou superestimamos consistentemente as inclinações da população e os meios da população. Para piorar as coisas ruins, o erro quadrático médio MSE tende a superestimar σ², produzindo intervalos de confiança mais amplos do que deveria.
Geralmente, você não inclui ou exclui variáveis para regressão linear devido à sua significância. Você os inclui porque supõe que as variáveis selecionadas são (boas) preditores dos critérios de regressão. Em outras palavras, a seleção de preditores é baseada na teoria.
A insignificância estatística na regressão linear pode significar duas coisas (das quais eu sei):
Um motivo válido para excluir preditores insignificantes é que você está procurando o menor subconjunto de preditores que explique a variação de critérios ou a maioria deles. Se você o encontrou, verifique sua teoria.
Na econometria, isso acontece à esquerda e à direita. Por exemplo, se você estiver usando manequins trimestrais de sazonalidade Q2, Q3 e Q4, acontece frequentemente que, como grupo, eles são significativos, mas alguns deles não são significativos individualmente. Nesse caso, você geralmente guarda todos eles.
ATUALIZAÇÃO: Outro exemplo comum é a previsão. A econometria é geralmente ensinada da perspectiva da inferência nos departamentos de economia. Na perspectiva da inferência, muita atenção está nos valores-p e na significância, porque você está tentando entender o que causa o que e assim por diante. Na previsão, não há muita ênfase nesse material, porque tudo o que você importa é quão bem o modelo pode prever a variável de interesse.
Isso é semelhante aos aplicativos de aprendizado de máquina, btw, que estão entrando na economia recentemente. Você pode ter um modelo com todas as variáveis significativas que não prevejam bem. No ML, é frequentemente associado ao chamado "ajuste excessivo". Há muito pouco uso desse modelo na previsão, obviamente.
Você está fazendo duas perguntas diferentes:
Editar: isso era verdade sobre a postagem original, mas pode não ser mais verdadeira após as edições.
Em relação ao primeiro trimestre, acho que está na fronteira de ser muito amplo. Existem muitas respostas possíveis, algumas já fornecidas. Mais um exemplo é ao criar modelos para previsão (consulte a fonte citada abaixo para obter uma explicação).
Em relação ao segundo trimestre, a significância estatística não é um critério sólido para a construção do modelo. Rob J. Hyndman escreve o seguinte em sua postagem no blog "Testes estatísticos para seleção de variáveis" :
A significância estatística geralmente não é uma boa base para determinar se uma variável deve ser incluída em um modelo, apesar do fato de muitas pessoas que deveriam conhecer melhor usá-las exatamente para esse fim. <...> Os testes estatísticos foram projetados para testar hipóteses, não para selecionar variáveis.
Observe também que muitas vezes você pode encontrar algumas variáveis que são estatisticamente significativas apenas por acaso (a chance é controlada por sua escolha do nível de significância). A observação de que uma variável é estatisticamente significativa não é suficiente para concluir que a variável pertence ao modelo.
Vou adicionar outro "sim". Sempre fui ensinado - e tentei passar adiante - que a principal consideração na escolha covariável é o conhecimento do domínio, não a estatística. Em bioestatística, por exemplo, se estou modelando algum resultado de saúde em indivíduos, não importa o que a regressão diz, você precisará de alguns argumentos muito bons para não incluir idade, raça e sexo no modelo.
Também depende da finalidade do seu modelo. Se o objetivo é entender melhor quais fatores estão mais associados ao seu resultado, a construção de um modelo parcimonioso tem algumas virtudes. Se você se importa com a previsão e não tanto com o entendimento, a eliminação de covariáveis pode ser uma preocupação menor.
(Finalmente, se você planeja usar estatísticas para seleção de variáveis, confira o que Frank Harrell tem a dizer sobre o assunto - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ e seu livro Regression Modeling Strategies . Resumidamente, quando você usa estratégias estatísticas passo a passo ou similares para escolher os melhores preditores, qualquer teste de "esses bons preditores?" é terrivelmente tendencioso - é claro que eles ' como bons preditores, você os escolheu nessa base e, portanto, os valores de p para esses preditores são falsamente baixos.)
A única coisa que o resultado da "insignificância estatística" realmente diz é que, no nível selecionado de erro do Tipo I, não podemos nem dizer se o efeito do regressor na variável dependente é positivo ou negativo (veja este post).
Portanto, se mantivermos esse regressor, qualquer discussão sobre seu próprio efeito na variável dependente não possui evidências estatísticas para respaldá-lo.
Mas essa falha de estimativa não diz que o regressor não pertence à relação estrutural, apenas diz que, com o conjunto de dados específico, não conseguimos determinar com alguma certeza o sinal de seu coeficiente.
Portanto, em princípio, se houver argumentos teóricos que apóiam sua presença, o regressor deve ser mantido.
Outras respostas aqui forneceram modelos / situações específicos para os quais esses regressores são mantidos na especificação, por exemplo, a resposta que menciona o modelo de dados do painel de efeitos fixos.
Você pode incluir uma variável de interesse particular se esse for o foco da pesquisa, mesmo que não seja estatisticamente significativo. Além disso, em bioestatística, o significado clínico é frequentemente diferente do significado estatístico.