Sob quais condições alguém deve usar a análise multinível / hierárquica?

36

Sob quais condições alguém deve considerar o uso de análise multinível / hierárquica em oposição a análises mais básicas / tradicionais (por exemplo, ANOVA, regressão OLS, etc.)? Existem situações em que isso possa ser considerado obrigatório? Existem situações em que o uso de análise multinível / hierárquica é inadequado? Finalmente, quais são alguns bons recursos para iniciantes aprenderem análises hierárquicas / multiníveis?

mixed-model multilevel-analysis

— Patrick
fonte

3

Veja também: stats.stackexchange.com/a/38430/5739

— StasK

22

Quando a estrutura de seus dados é naturalmente hierárquica ou aninhada, a modelagem multinível é um bom candidato. De um modo mais geral, é um método para modelar interações.

Um exemplo natural é quando seus dados são de uma estrutura organizada, como país, estado, distritos, onde você deseja examinar os efeitos nesses níveis. Outro exemplo em que você pode se encaixar nessa estrutura é a análise longitudinal, na qual você repetiu medições de vários indivíduos ao longo do tempo (por exemplo, alguma resposta biológica a uma dose de medicamento). Um nível do seu modelo assume uma resposta média do grupo para todos os assuntos ao longo do tempo. Outro nível do seu modelo permite perturbações (efeitos aleatórios) da média do grupo, para modelar diferenças individuais.

Um livro popular e bom para começar é a Análise de Dados de Gelman Usando Modelos de Regressão e Multilevel / Hierachical .

— ars
fonte

3

Em segundo lugar, respondo esta resposta e gostaria de acrescentar outra grande referência sobre esse tópico: Texto da Análise de Dados Longitudinal Aplicada de Singer < gseacademic.harvard.edu/alda >. Embora seja específico para a análise longitudinal, fornece uma boa visão geral do MLM em geral. Também achei a Análise Multinível de Snidjers e Bosker boa e legível < stat.gamma.rug.nl/multilevel.htm >. John Fox também fornece uma boa introdução a esses modelos em R aqui < cran.r-project.org/doc/contrib/Fox-Companion/… >.

— Brett

Obrigado a todos por suas respostas :) Como uma pergunta de acompanhamento, a maioria dos dados não pode ser conceituada como sendo naturalmente hierárquica / aninhada? Por exemplo, na maioria dos estudos psicológicos, existem várias variáveis dependentes (questionários, respostas a estímulos, etc.) aninhadas em indivíduos, que são aninhadas em dois ou mais grupos (designados aleatoriamente ou não). Você concorda que isso representa uma estrutura de dados naturalmente hierárquica e / ou aninhada?

— Patrick

Se algum de vocês, gurus multiníveis / hierárquicos, pudesse poupar alguns minutos, ficaria muito grato se você pudesse analisar as questões de análise colocadas em um post diferente ( stats.stackexchange.com/questions/1799/… ). Especificamente, você acha que os dados de percepção da dor descritos nesse post seriam melhor analisados por análises hierárquicas do que análises não hierárquicas? Ou isso não faria diferença ou seria inapropriado? Obrigado: D

— Patrick

18

O Center for Multilevel Modeling possui alguns bons tutoriais on-line gratuitos para modelagem em vários níveis e eles têm tutoriais de software para ajustar modelos no software MLwiN e no STATA.

Tome isso como heresia, porque não li mais do que um capítulo do livro, mas modelos lineares hierárquicos: aplicativos e métodos de análise de dados Por Stephen W. Raudenbush, Anthony S. Bryk é altamente recomendado. Também jurei que havia um livro sobre modelagem em vários níveis usando o software R no Springer Use R! série, mas não consigo encontrá-lo no momento (pensei que foi escrito pelas mesmas pessoas que escreveram o livro A Beginner's Guide to R).

editar: O livro sobre o uso de R para modelos de vários níveis é Modelos e Extensões de Efeitos Mistos em Ecologia com R de Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA, Smith, GM

boa sorte

— Andy W
fonte

9

Aqui está outra perspectiva sobre o uso de modelos multiníveis versus modelos de regressão: Em um artigo interessante de Afshartous e de Leeuw, eles mostram que, se o objetivo da modelagem é preditivo (ou seja, prever novas observações), a escolha do modelo é diferente de quando o objetivo é inferência (onde você tenta combinar o modelo com a estrutura de dados). O artigo a que me refiro é

Afshartous, D., de Leeuw, J. (2005). Previsão em modelos multiníveis. J. Educat. Behav. Statist. 30 (2): 109–139.

Acabei de encontrar outro artigo relacionado desses autores aqui: http://moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf

— Galit Shmueli
fonte

6

y_{i s} = α_{s} + X_{i s}^{'} β_{s} + ϵ_{i s},

$y_{is} = \alpha_s + X_{is}'\beta_s + \epsilon_{is},$

y_{i s}

$y_{is}$

i

$i$

s

$s$

X_{i s}

$X_{is}$

β_{s}

$\beta_s$

α_{s}

$\alpha_s$

ϵ_{i s}

$\epsilon_{is}$

α_{s}

$\alpha_s$ 's, que medem o 'valor acrescentado' que a escola oferece aos estudantes uma vez que seus atributos são contabilizados-for. Você deseja levar em consideração os atributos dos alunos, porque não deseja punir uma boa escola que tenha que lidar com os alunos com certas desvantagens; portanto, as notas médias deprimidas dos testes desprezam o alto "valor agregado" que a escola oferece aos seus alunos.

Com o modelo em mãos, a questão se torna uma estimativa. Se você tem muitas escolas e muitos dados para cada escola, as boas propriedades do OLS (consulte Angrist e Pischke, Mostly Harmless ..., para uma revisão atual) sugira que você queira usá-lo, com ajustes adequados aos erros padrão para contabilizar dependências e usando variáveis e interações fictícias para obter efeitos no nível da escola e interceptações específicas da escola. O OLS pode ser ineficiente, mas é tão transparente que pode ser mais fácil convencer o público cético se você o usar. Porém, se seus dados são escassos de certas maneiras - principalmente se você tiver poucas observações para algumas escolas -, convém impor mais "estrutura" ao problema. Você pode "emprestar força" às escolas de amostra maior para melhorar as estimativas barulhentas que você obteria nas escolas de amostra pequena se a estimativa fosse feita sem estrutura. Em seguida, você pode recorrer a um modelo de efeitos aleatórios estimado via FGLS,

Neste exemplo, o uso de um modelo multinível (no entanto, decidimos ajustá-lo, em última análise) é motivado pelo interesse direto nas interceptações na escola. Obviamente, em outras situações, esses parâmetros no nível do grupo podem ser nada mais do que um incômodo. Se você precisa ou não ajustá-las (e, portanto, ainda trabalha com algum tipo de modelo multinível) depende se certas suposições de exogeneidade condicional são válidas. Sobre isso, eu recomendaria consultar a literatura econométrica sobre métodos de dados em painel; a maioria das informações de lá é transferida para contextos gerais de dados agrupados.

— Cyrus S
fonte

1

Este é um tópico antigo, mas no caso de você ler o seguinte: OLS com variáveis e interações fictícias não empresta força como as outras técnicas mencionadas, certo? Eu tenho alguns dados em que dividi minha análise em duas partes e usei dois comandos lm (modelo linear R) para modelar as duas partes. Introduzi uma variável dummy para indicar as duas partes, depois usei lm novamente neste modelo "unificado" e as respostas são próximas, mas não são as mesmas. Minha pergunta seria: essa resposta é "melhor" ou simplesmente diferente por causa do algoritmo?

— 31411 Wayne

@ Wayne: se você usou bonecos e o conjunto completo de interações no segundo, as estimativas pontuais devem ser as mesmas. Os erros padrão podem diferir porque o segundo método pode presumir graus de liberdade mais altos, mas você deseja verificar se essa é uma suposição de modelagem correta.

— Cyrus S

6

A modelagem multinível é apropriada, como o nome sugere, quando seus dados têm influências que ocorrem em diferentes níveis (individual, ao longo do tempo, sobre domínios etc.). A modelagem de nível único assume que tudo está ocorrendo no nível mais baixo. Outra coisa que um modelo multinível faz é introduzir correlações entre unidades aninhadas. Portanto, as unidades de nível 1 dentro da mesma unidade de nível 2 serão correlacionadas.

Em certo sentido, você pode pensar na modelagem em vários níveis como encontrar o meio termo entre a "falácia individualista" e a "falácia ecológica". A falácia individualista ocorre quando os "efeitos da comunidade" são ignorados, como a compatibilidade do estilo de um professor com o estilo de aprendizagem de um aluno, por exemplo (presume-se que o efeito venha apenas do indivíduo, faça a regressão no nível 1). enquanto "falácia ecológica" é o contrário, e seria como supor que o melhor professor tivesse os alunos com as melhores notas (e para que o nível 1 não seja necessário, basta fazer a regressão inteiramente no nível 2). Na maioria das situações, nenhum dos dois é apropriado (o aluno-professor é um exemplo "clássico").

$y_{ij}$ $j$

— probabilityislogic
fonte

4

Geralmente, falar uma análise bayesiana hierárquica (HB) levará a estimativas em nível individual eficientes e estáveis, a menos que seus dados sejam tais que os efeitos em nível individual sejam completamente homogêneos (um cenário irreal). As estimativas de eficiência e parâmetros estáveis dos modelos HB tornam-se realmente importantes quando você possui dados esparsos (por exemplo, menos de obs do que o de parâmetros no nível individual) e quando deseja estimar estimativas no nível individual.

No entanto, os modelos HB nem sempre são fáceis de estimar. Portanto, enquanto a análise da HB geralmente supera a análise que não é da HB, é necessário avaliar os custos relativos x benefícios com base na sua experiência passada e nas suas prioridades atuais em termos de tempo e custo.

Dito isto, se você não está interessado em estimativas em nível individual, pode simplesmente estimar um modelo de nível agregado, mas mesmo nesses contextos estimar modelos agregados via HB usando estimativas em nível individual pode fazer muito sentido.

Em resumo, a adaptação de modelos HB é a abordagem recomendada desde que você tenha tempo e paciência para ajustá-los. Você pode usar modelos agregados como referência para avaliar o desempenho do seu modelo HB.

Obrigado pela sua resposta detalhada Srikant :) No momento, não estou familiarizado com as análises bayesianas, mas sou um dos tópicos que pretendo investigar. A análise bayesiana hierárquica é diferente das outras análises multiníveis / hierárquicas discutidas nesta página? Em caso afirmativo, você tem um recurso recomendado para as partes interessadas aprenderem mais?

— Patrick

Do ponto de vista analítico, análise HB = modelos multiníveis. No entanto, o termo modelos de vários níveis é usado quando você tem níveis diferentes que ocorrem naturalmente (consulte o exemplo de @ars). O termo modelos HB é usado quando você não possui necessariamente níveis diferentes na situação. Por exemplo, se você estiver modelando a resposta de um consumidor para várias variáveis de marketing (por exemplo, preço, gastos antecipados etc.), poderá ter a seguinte estrutura no nível do consumidor:

β_{i} \sim N (\bar{β}, Σ)

$β_i \sim N(\bar{\beta},\Sigma)$ e

\bar{β} \sim N (., .)

$\bar{\beta} \sim N(.,.)$ no nível da população. Para referências: Veja as outras respostas.

4

Aprendi com Snijders e Bosker, Análise multinível: uma introdução à modelagem multinível básica e avançada. Acho que é muito bom para iniciantes, deve ser porque eu sou um grosso no que diz respeito a essas coisas e isso fez sentido para mim.

Eu também segundo Gelman e Hill, um livro verdadeiramente brilhante.

— Chris Beeley
fonte

1

Modelos multiníveis devem ser empregados quando os dados são aninhados em uma estrutura hierárquica, particularmente quando há diferenças significativas entre as unidades de nível superior na variável dependente (por exemplo, a orientação para o desempenho do aluno varia entre os alunos e também entre as classes com as quais os alunos estão aninhados). Nessas circunstâncias, as observações são agrupadas em vez de independentes. A falha em levar em consideração o agrupamento leva à subestimação dos erros das estimativas de parâmetros, ao teste de significância tendenciosa e à tendência de rejeitar o nulo quando ele deve ser retido. A justificativa para o uso de modelos multiníveis, bem como explicações completas sobre como realizar as análises, é fornecida por

Raudenbush, SW Bryk, AS (2002). Modelos lineares hierárquicos: aplicações e métodos de análise de dados. 2ª edição. Newbury Park, CA: Sábio.

O livro R & B também está bem integrado ao pacote de software HLM dos autores, o que ajuda bastante no aprendizado do pacote. Uma explicação de por que os modelos multiníveis são necessários e preferíveis a algumas alternativas (como codificação fictícia das unidades de nível superior) é fornecida em um artigo clássico

Hoffman, DA (1997). Uma visão geral da lógica e da lógica dos modelos lineares hierárquicos. Journal of Management, 23, 723-744.

O documento da Hoffman pode ser baixado gratuitamente se você pesquisar no Google "Hoffman 1997 HLM" e acessar o pdf online.

— EstatísticasDoc Consulting
fonte