A pergunta sugere uma comparação de três modelos relacionados. Para tornar a comparação clara, seja a variável dependente, seja o código da comunidade atual e defina e como indicadores das comunidades 1 e 2, respectivamente. (Isso significa que para a comunidade 1 e para as comunidades 2 e 3; para a comunidade 2 e para as comunidades 1 e 3.)X ∈ { 1 , 2 , 3 } X 1 X 2 X 1 = 1 X 1 = 0 X 2 = 1 X 2 = 0YX∈{1,2,3}X1X2X1=1X1=0X2=1X2=0
A análise atual pode ser uma das seguintes:
Y=α+βX+ε(first model)
ou
Y=α+β1X1+β2X2+ε(second model).
Nos dois casos, representa um conjunto de variáveis aleatórias independentes distribuídas de forma idêntica e com expectativa zero. O segundo modelo provavelmente é o pretendido, mas o primeiro modelo será aquele que se encaixará na codificação descrita na pergunta.ε
A saída da regressão OLS é um conjunto de parâmetros ajustados (indicados com "chapéus" em seus símbolos), juntamente com uma estimativa da variação comum dos erros. No primeiro modelo, há um teste t para comparar com . No segundo modelo, existem dois testes t: um para comparar com e outro para comparar com . Como a pergunta relata apenas um teste t, vamos começar examinando o primeiro modelo. 0 ^ β 1 0 ^ β 2 0β^0β1^0β2^0
Concluindo que é significativamente diferente de , podemos fazer uma estimativa de = = para qualquer comunidade:β^0YE[α+βX+ε]α+βX
para a comunidade 1, e a estimativa é igual a ;X=1α+β
para a comunidade 2, e a estimativa é igual a ; eX=2α+2β
para a comunidade 3, e a estimativa é igual a . X=3α+3β
Em particular, o primeiro modelo força os efeitos da comunidade em progressão aritmética. Se a codificação da comunidade é apenas uma maneira arbitrária de se diferenciar entre as comunidades, essa restrição interna é igualmente arbitrária e provavelmente errada.
É instrutivo realizar a mesma análise detalhada das previsões do segundo modelo:
Para a comunidade 1, em que e , o valor previsto de é igual a . Especificamente,X1=1X2=0Yα+β1
Y(community 1)=α+β1+ε.
Para a comunidade 2, em que e , o valor previsto de é igual a . Especificamente,X1=0X2=1Yα+β2
Y(community 2)=α+β2+ε.
Para a comunidade 3, em que , o valor previsto de é igual a . Especificamente,X1=X2=0Yα
Y(community 3)=α+ε.
Os três parâmetros efetivamente dão ao segundo modelo total liberdade para estimar os três valores esperados de separadamente. Y Os testes t avaliam se (1) ; isto é, se existe uma diferença entre as comunidades 1 e 3; e (2) ; isto é, se existe uma diferença entre as comunidades 2 e 3. Além disso, pode-se testar o "contraste" com um teste t para verificar se as comunidades 2 e 1 diferem: isso funciona porque a diferença é = .β1=0β2=0β2−β1(α+β2)−(α+β1)β2−β1
Agora podemos avaliar o efeito de três regressões separadas. Eles seriam
Y(community 1)=α1+ε1,
Y(community 2)=α2+ε2,
Y(community 3)=α3+ε3.
Comparando isso com o segundo modelo, vemos que deve concordar com , deve concordar com e deve concordar com . Portanto, em termos de flexibilidade dos parâmetros de ajuste, ambos os modelos são igualmente bons. No entanto, as suposições neste modelo sobre os termos de erro são mais fracas. Todo o deve ser independente e distribuído de forma idêntica (iid); todo deve ser iid, e todo deve ser iid, mas nada é assumido sobre as relações estatísticas entre as regressões separadas. α + β 1 α 2 α + β 2 α 3 α ε 1 ε 2 ε 3α1α+β1α2α+β2α3αε1ε2ε3 Regressões separadas, portanto, permitem flexibilidade adicional:
Mais importante ainda, a distribuição do podem diferir daquela do que pode ser diferente da do .ε 2 ε 3ε1ε2ε3
Em algumas situações, o pode estar correlacionado com o . Nenhum desses modelos lida explicitamente com isso, mas o terceiro modelo (regressões separadas) pelo menos não será afetado adversamente por ele.ε jεiεj
Essa flexibilidade adicional significa que os resultados do teste t para os parâmetros provavelmente diferem entre o segundo e o terceiro modelo. (Porém, não deve resultar em estimativas diferentes de parâmetros.)
Para verificar se são necessárias regressões separadas , faça o seguinte:
Encaixe o segundo modelo. Plote os resíduos contra a comunidade, por exemplo, como um conjunto de gráficos de caixas lado a lado ou um trio de histogramas ou até como três gráficos de probabilidade. Procure evidências de diferentes formas distributivas e, especialmente, de variações consideravelmente diferentes. Se essa evidência estiver ausente, o segundo modelo deve estar ok. Se estiver presente, são necessárias regressões separadas.
Quando os modelos são multivariados - ou seja, incluem outros fatores - é possível uma análise semelhante, com conclusões semelhantes (mas mais complicadas). Em geral, executar regressões separadas equivale a incluir todas as possíveis interações bidirecionais com a variável da comunidade (codificadas como no segundo modelo, não no primeiro) e permitir diferentes distribuições de erros para cada comunidade.