Devo executar regressões separadas para cada comunidade ou a comunidade pode simplesmente ser uma variável de controle em um modelo agregado?

11

Estou executando um modelo OLS com uma variável de índice de ativos contínua como o DV. Meus dados são agregados de três comunidades semelhantes em estreita proximidade geográfica entre si. Apesar disso, achei importante usar a comunidade como uma variável de controle. Como se vê, a comunidade é significativa no nível de 1% (t-score de -4,52). A comunidade é uma variável nominal / categórica codificada como 1,2,3 para 1 de 3 comunidades diferentes.

Minha pergunta é se esse alto grau de significância significa que eu deveria estar fazendo regressões nas comunidades individualmente, e não como uma agregação. Caso contrário, o uso da comunidade como variável de controle está essencialmente fazendo isso?

— cadamt
fonte

Faria sentido usar um modelo hierárquico com a comunidade como um efeito aleatório? As comunidades não são sua principal preocupação, são? Ao usar um modelo hierárquico, você compartilha a força.

— Wayne

14

A pergunta sugere uma comparação de três modelos relacionados. Para tornar a comparação clara, seja a variável dependente, seja o código da comunidade atual e defina e como indicadores das comunidades 1 e 2, respectivamente. (Isso significa que para a comunidade 1 e para as comunidades 2 e 3; para a comunidade 2 e para as comunidades 1 e 3.) $Y$ $X \in \{1,2,3\}$ $X_1$ $X_2$ $X_1=1$ $X_1=0$ $X_2=1$ $X_2=0$

A análise atual pode ser uma das seguintes:

Y = α + β X + ε (first model)

$Y = \alpha + \beta X + \varepsilon\quad\text{(first model)}$

ou

Y = α + β_{1} X_{1} + β_{2} X_{2} + ε (second model) .

$Y = \alpha + \beta_1 X_1 + \beta_2 X_2 + \varepsilon\quad\text{(second model)}.$

Nos dois casos, representa um conjunto de variáveis aleatórias independentes distribuídas de forma idêntica e com expectativa zero. O segundo modelo provavelmente é o pretendido, mas o primeiro modelo será aquele que se encaixará na codificação descrita na pergunta. $\varepsilon$

A saída da regressão OLS é um conjunto de parâmetros ajustados (indicados com "chapéus" em seus símbolos), juntamente com uma estimativa da variação comum dos erros. No primeiro modelo, há um teste t para comparar com . No segundo modelo, existem dois testes t: um para comparar com e outro para comparar com . Como a pergunta relata apenas um teste t, vamos começar examinando o primeiro modelo. $\hat{\beta}$ $0$ $\hat{\beta_1}$ $0$ $\hat{\beta_2}$ $0$

Concluindo que é significativamente diferente de , podemos fazer uma estimativa de = = para qualquer comunidade: $\hat{\beta}$ $0$ $Y$ $\mathbb{E}[\alpha + \beta X + \varepsilon]$ $\alpha + \beta X$

para a comunidade 1, e a estimativa é igual a ; $X=1$ $\alpha+\beta$

para a comunidade 2, e a estimativa é igual a ; e $X=2$ $\alpha+2\beta$

para a comunidade 3, e a estimativa é igual a . $X=3$ $\alpha+3\beta$

Em particular, o primeiro modelo força os efeitos da comunidade em progressão aritmética. Se a codificação da comunidade é apenas uma maneira arbitrária de se diferenciar entre as comunidades, essa restrição interna é igualmente arbitrária e provavelmente errada.

É instrutivo realizar a mesma análise detalhada das previsões do segundo modelo:

Para a comunidade 1, em que e , o valor previsto de é igual a . Especificamente, $X_1=1$ $X_2=0$ $Y$ $\alpha + \beta_1$

Y (community 1) = α + β_{1} + ε .

$Y(\text{community 1}) = \alpha + \beta_1 + \varepsilon.$

Para a comunidade 2, em que e , o valor previsto de é igual a . Especificamente, $X_1=0$ $X_2=1$ $Y$ $\alpha+\beta_2$

Y (community 2) = α + β_{2} + ε .

$Y(\text{community 2}) = \alpha + \beta_2 + \varepsilon.$

Para a comunidade 3, em que , o valor previsto de é igual a . Especificamente, $X_1=X_2=0$ $Y$ $\alpha$

Y (community 3) = α + ε .

$Y(\text{community 3}) = \alpha + \varepsilon.$

Os três parâmetros efetivamente dão ao segundo modelo total liberdade para estimar os três valores esperados de separadamente. $Y$ Os testes t avaliam se (1) ; isto é, se existe uma diferença entre as comunidades 1 e 3; e (2) ; isto é, se existe uma diferença entre as comunidades 2 e 3. Além disso, pode-se testar o "contraste" com um teste t para verificar se as comunidades 2 e 1 diferem: isso funciona porque a diferença é = . $\beta_1=0$ $\beta_2=0$ $\beta_2-\beta_1$ $(\alpha + \beta_2) - (\alpha + \beta_1)$ $\beta_2-\beta_1$

Agora podemos avaliar o efeito de três regressões separadas. Eles seriam

Y (community 1) = α_{1} + ε_{1},

$Y(\text{community 1}) = \alpha_1 + \varepsilon_1,$

Y (community 2) = α_{2} + ε_{2},

$Y(\text{community 2}) = \alpha_2 + \varepsilon_2,$

Y (community 3) = α_{3} + ε_{3} .

$Y(\text{community 3}) = \alpha_3 + \varepsilon_3.$

Comparando isso com o segundo modelo, vemos que deve concordar com , deve concordar com e deve concordar com . Portanto, em termos de flexibilidade dos parâmetros de ajuste, ambos os modelos são igualmente bons. No entanto, as suposições neste modelo sobre os termos de erro são mais fracas. Todo o deve ser independente e distribuído de forma idêntica (iid); todo deve ser iid, e todo deve ser iid, mas nada é assumido sobre as relações estatísticas entre as regressões separadas. $\alpha_1$ $\alpha+\beta_1$ $\alpha_2$ $\alpha+\beta_2$ $\alpha_3$ $\alpha$ $\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$ Regressões separadas, portanto, permitem flexibilidade adicional:

Mais importante ainda, a distribuição do podem diferir daquela do que pode ser diferente da do . $\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$
Em algumas situações, o pode estar correlacionado com o . Nenhum desses modelos lida explicitamente com isso, mas o terceiro modelo (regressões separadas) pelo menos não será afetado adversamente por ele. $\varepsilon_i$ $\varepsilon_j$

Essa flexibilidade adicional significa que os resultados do teste t para os parâmetros provavelmente diferem entre o segundo e o terceiro modelo. (Porém, não deve resultar em estimativas diferentes de parâmetros.)

Para verificar se são necessárias regressões separadas , faça o seguinte:

Encaixe o segundo modelo. Plote os resíduos contra a comunidade, por exemplo, como um conjunto de gráficos de caixas lado a lado ou um trio de histogramas ou até como três gráficos de probabilidade. Procure evidências de diferentes formas distributivas e, especialmente, de variações consideravelmente diferentes. Se essa evidência estiver ausente, o segundo modelo deve estar ok. Se estiver presente, são necessárias regressões separadas.

Quando os modelos são multivariados - ou seja, incluem outros fatores - é possível uma análise semelhante, com conclusões semelhantes (mas mais complicadas). Em geral, executar regressões separadas equivale a incluir todas as possíveis interações bidirecionais com a variável da comunidade (codificadas como no segundo modelo, não no primeiro) e permitir diferentes distribuições de erros para cada comunidade.

— whuber
fonte

-3

seleção de modelo (IMHO) pode ser recomendada. Como os modelos complexos (inclinação separada) terão a penalidade mais forte, os modelos interpretáveis mais concisos e fáceis serão "melhores".

— Ivan Kshnyasev
fonte

1

Não está totalmente claro o que você está recomendando aqui ou como esta tabela se relaciona.

— Scortchi - Reinstate Monica