Como combinar intervalos de confiança para um componente de variação de um modelo de efeitos mistos ao usar imputação múltipla

A lógica da imputação múltipla (MI) é imputar os valores ausentes não uma vez, mas várias (normalmente M = 5) vezes, resultando em M conjuntos de dados concluídos. Os conjuntos de dados completos M são então analisados com métodos de dados completos nos quais as estimativas M e seus erros padrão são combinados usando as fórmulas de Rubin para obter a estimativa "geral" e seu erro padrão.

Ótimo até agora, mas não sei como aplicar esta receita quando se trata de componentes de variação de um modelo de efeitos mistos. A distribuição amostral de um componente de variância é assimétrica - portanto, o intervalo de confiança correspondente não pode ser fornecido na forma típica "estimativa ± 1,96 * se (estimativa)". Por esse motivo, os pacotes R lme4 e nlme nem fornecem os erros padrão dos componentes de variação, mas apenas fornecem intervalos de confiança.

Portanto, podemos executar o MI em um conjunto de dados e, em seguida, obter intervalos de confiança M por componente de variação depois de ajustar o mesmo modelo de efeito misto nos conjuntos de dados M concluídos. A questão é como combinar esses intervalos M em um intervalo de confiança "geral".

Eu acho que isso deveria ser possível - os autores de um artigo (yucel & demirtas (2010) Impacto de efeitos aleatórios não normais na inferência por IM) parecem ter feito isso, mas eles não explicam exatamente como.

Qualquer dica seria muito grato!

Cheers, Rok

— Rok
fonte

Uma pergunta muito interessante. Estou ansioso para ouvir seus resultados, se você quiser compartilhá-los ...

— chl

@chl: Posso enviar as tabelas com os resultados quando terminar, mas não vou inventar nada de novo. Até agora, estou planejando comparar o MI em um modelo de imputação de dois níveis (pacote R) e o MI em um modelo normal simples (ignorando a estrutura de dois níveis, a norma do pacote R) e a exclusão listada. Sob diferentes tamanhos de amostra, valores do componente de variação, etc. Isso deve ser suficiente para o seminário (eu sou um estudante de doutorado), mas não exatamente inovador. Se você tem alguma idéia de como "aprimorar" o estudo de simulação, eu adoraria ouvir.

— Rok

Outra coisa: não tenho certeza de que exista uma solução analítica adequada para esse problema. Eu olhei para alguma literatura adicional, mas esse problema é elegante em todos os lugares. Também notei que yucel e demirtas (no artigo que mencionei, página 798) escrevem: “Esses conjuntos de dados imputados multiplicados foram usados para estimar o modelo […] usando o pacote R lme4, levando a 10 conjuntos de (beta, se (beta) ), (sigma_b, se (sigma_b)) que foram combinados usando as regras de combinação de MI definidas por Rubin. ”

— Rok

Parece que eles usaram algum tipo de atalho para estimar a SE do componente de variância (o que é, obviamente, inapropriado, pois o IC é assimétrico) e depois aplicaram a fórmula clássica.

— Rok

Ok, obrigado por isso. Você pode colocar seus comentários em uma resposta para que possa ser votada?

— quer

Respostas:

Esta é uma grande pergunta! Não tenho certeza se essa é uma resposta completa, no entanto, deixo cair essas poucas linhas para o caso de ajudar.

Parece que Yucel e Demirtas (2010) se referem a um artigo mais antigo publicado no JCGS, Estratégias computacionais para modelos lineares multivariados de efeitos mistos com valores ausentes , que usa uma abordagem híbrida de pontuação EM / Fisher para produzir estimativas baseadas em probabilidade dos VCs . Foi implementado no pacote R mlmmm . Não sei, no entanto, se produz ICs.

Caso contrário, eu definitivamente verificaria o programa WinBUGS , que é amplamente usado em modelos multiníveis, incluindo aqueles com dados ausentes. Eu me lembro que só funcionará se o seu MV estiver na variável de resposta, não nas covariáveis, porque geralmente precisamos especificar as distribuições condicionais completas (se o MV estiver presente nas variáveis independentes, isso significa que devemos dar um os Xs ausentes, e isso será considerado como um parâmetro a ser estimado pelo WinBUGS ...). Parece aplicar-se a R também, se eu me referir ao seguinte segmento em r-sig-mixed, dados ausentes no lme, lmer, PROC MIXED . Além disso, pode valer a pena examinar o software MLwiN .

— chl
fonte

Muito obrigado pela sua resposta! Em princípio, também estou interessado em como resolver um problema concreto como o que descrevi (obrigado pela dica do WinBUGS). Mas, no momento, estou tentando fazer um estudo de simulação para um trabalho de seminário no qual examinaria o desempenho (taxas de cobertura etc.) do IM sob especificação incorreta do modelo. Suponho que vou esquecer os componentes de variação se não encontrar uma solução e me concentrar nos efeitos fixos, mas é frustrante desistir.

— Ano

@Rok Ótima idéia para a simulação! Aguardo com expectativa esse problema em particular. Suponho que você já pesquise no mailing r-sig-mixed e no livro de Gelman sobre regressão multinível ...

— chl

Eu olhei agora, tanques para as referências! Infelizmente, não há nada no MI nos arquivos r-sig-mixed; e Gelman apenas fornece a fórmula básica sobre como combinar inferências do IM quando temos variações dentro e entre as imputações fornecidas (§25.7).

— Ano

Comentário repetido acima:

Não tenho certeza de que exista uma solução analítica adequada para esse problema. Analisei alguma literatura adicional, mas esse problema é elegantemente ignorado em todos os lugares. Também notei que Yucel e Demirtas (no artigo que mencionei, página 798) escrevem:

Esses conjuntos de dados com imputação múltipla foram usados para estimar o modelo […] usando o pacote R que lme4leva a 10 conjuntos de (beta, se (beta)), (sigma_b, se (sigma_b)) que foram combinados usando as regras de combinação de MI definidas por Esfregar.

Parece que eles usaram algum tipo de atalho para estimar a SE do componente de variância (o que é, obviamente, inapropriado, pois o IC é assimétrico) e depois aplicaram a fórmula clássica.

— Rok
fonte

Agradeço que você tenha voltado para compartilhar sua experiência com esse problema. Infelizmente, não tenho uma solução real, mas talvez outras sugestões surjam.

— chl

"Elegantemente esquecido" ... é uma frase útil para revisar a literatura, se alguma vez ouvi uma.

— Matt Parker

Isenção de responsabilidade: essa ideia pode ser tola e não vou fingir entender as implicações teóricas do que estou propondo.

" Sugestão " : por que você simplesmente não atribui 100 conjuntos de dados (eu sei que você normalmente realiza 5), executa o lme4 ou nmle, obtém os intervalos de confiança (você possui 100 deles) e depois:

Usando uma pequena largura de intervalo (por exemplo, faixa / 1000 ou algo assim), teste a faixa de valores possíveis de cada parâmetro e inclua apenas os pequenos intervalos que aparecem em pelo menos 95 dos 100 ICs. Você teria uma "média" de Monte Carlo dos seus intervalos de confiança.

Tenho certeza de que há problemas (ou talvez problemas teóricos) nessa abordagem. Por exemplo, você pode acabar com um conjunto de intervalos separados . Isso pode ou não ser uma coisa ruim, dependendo do seu campo. Observe que isso só é possível se você tiver pelo menos dois intervalos de confiança completamente sobrepostos , separados por uma região com menos de 95% de cobertura.

Você também pode considerar algo mais próximo do tratamento bayesiano de dados ausentes para obter uma região credível posterior que certamente seria mais bem formada e mais teoricamente suportada do que minha sugestão ad-hoc.

— M. Tibbits
fonte