A pergunta está datada, mas acho muito importante. A melhor resposta que posso obter é do livro de Joop J Hox (2010) "Técnicas e aplicativos de análise multinível, segunda edição".
Suponha dados hierárquicos de dois níveis com variáveis explicativas no nível mais baixo e variáveis explicativas no nível mais alto. Então, na página 55, ele escreve:pq
Um modelo de regressão comum de nível único para os mesmos dados estimaria apenas a interceptação, uma variação de erro e inclinações de regressão p + q. A superioridade do modelo de regressão multinível é clara, se considerarmos que os dados estão agrupados em grupos. Se tivermos 100 grupos, estimar um modelo de regressão múltipla comum em cada grupo separadamente requer estimar 100 × (1 interceptação de regressão + 1 variação residual + p inclinações de regressão) mais possíveis interações com as variáveis de nível de grupo q. A regressão multinível substitui a estimativa de 100 interceptações, estimando uma interceptação média mais sua variação residual entre os grupos, assumindo uma distribuição normal para esses resíduos. Portanto, a análise de regressão multinível substitui a estimativa de 100 interceptações distintas, estimando dois parâmetros (a média e a variação das interceptações), além de uma suposição de normalidade. A mesma simplificação é usada para as inclinações de regressão. Em vez de estimar 100 inclinações para a variável explicativa sexo do aluno, estimamos a inclinação média, juntamente com sua variação entre os grupos, e assumimos que a distribuição das inclinações é normal. No entanto, mesmo com um número modesto de variáveis explicativas, a análise de regressão multinível implica um modelo complicado. Geralmente, não queremos estimar o modelo completo, primeiro porque isso provavelmente nos levará a problemas computacionais, mas também porque é muito difícil interpretar um modelo tão complexo.
Isso é para a descrição. Agora, as páginas 29 a 30 responderão à sua pergunta com mais precisão.
As intercepções e inclinações previstas para as 100 classes não são idênticas aos valores que obteríamos se realizássemos 100 análises de regressão ordinária separadas em cada uma das 100 classes, usando técnicas padrão de mínimos quadrados ordinários (OLS). Se comparássemos os resultados de 100 análises de regressão OLS separadas com os valores obtidos de uma análise de regressão multinível, descobriríamos que os resultados das análises separadas são mais variáveis. Isso ocorre porque as estimativas multiníveis dos coeficientes de regressão das 100 classes são ponderadas. São as chamadas estimativas empíricas de Bayes (EB) ou de retração: uma média ponderada da estimativa específica de OLS em cada classe e o coeficiente de regressão geral, estimado para todas as classes semelhantes.
Como resultado, os coeficientes de regressão são reduzidos em direção ao coeficiente médio para todo o conjunto de dados. O peso do encolhimento depende da confiabilidade do coeficiente estimado. Os coeficientes estimados com pequena precisão diminuem mais do que os coeficientes estimados com muita precisão. A precisão da estimativa depende de dois fatores: o tamanho da amostra do grupo e a distância entre a estimativa baseada no grupo e a estimativa geral. As estimativas para grupos pequenos são menos confiáveis e diminuem mais do que as estimativas para grupos grandes. Em outras palavras, estimativas que estão muito longe da estimativa geral são consideradas menos confiáveis e encolhem mais do que estimativas próximas da média geral. O método estatístico utilizado é chamado estimativa empírica de Bayes. Por causa desse efeito de encolhimento, estimadores empíricos de Bayes são tendenciosos. No entanto, eles geralmente são mais precisos, uma propriedade que geralmente é mais útil do que ser imparcial (ver Kendall, 1959).
Espero que seja satisfatório.