Efeitos aleatórios cruzados e dados desequilibrados


10

Estou modelando alguns dados nos quais acho que tenho dois efeitos aleatórios cruzados. Mas o conjunto de dados não é equilibrado e não tenho certeza do que precisa ser feito para justificá-lo.

Meus dados são um conjunto de eventos. Um evento ocorre quando um cliente se reúne com um provedor para executar uma tarefa, que é bem-sucedida ou não. Existem milhares de clientes e fornecedores, e cada cliente e fornecedor participa de vários números de eventos (aproximadamente 5 a 500). Cada cliente e provedor tem um nível de habilidade, e a chance de que a tarefa seja bem-sucedida é uma função das habilidades de ambos os participantes. Não há sobreposição entre clientes e provedores.

Estou interessado nas respectivas variações da população de clientes e fornecedores, para que possamos saber qual fonte tem um efeito maior na taxa de sucesso. Também quero conhecer os valores específicos das habilidades entre o cliente e os provedores para os quais realmente temos dados, para identificar os melhores / piores clientes ou provedores.

Inicialmente, quero assumir que a probabilidade de sucesso é impulsionada apenas pelos níveis de habilidade combinados do cliente e do provedor, sem outros efeitos fixos. Portanto, assumindo que x é um fator para o cliente e y é um fator para o provedor, em R (usando o pacote lme4) eu tenho um modelo especificado como:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

Um problema é que os clientes não são distribuídos igualmente entre os provedores. É mais provável que os clientes com habilidades mais altas correspondam aos provedores de habilidades mais altas. Meu entendimento é que um efeito aleatório não deve ser correlacionado com outros preditores do modelo, mas não tenho certeza de como explicá-lo.

Além disso, alguns clientes e fornecedores têm muito poucos eventos (menos de 10), enquanto outros têm muitos (até 500), portanto, há uma ampla disseminação na quantidade de dados que temos sobre cada participante. Idealmente, isso seria refletido em um "intervalo de confiança" em torno da estimativa de habilidade de cada participante (embora eu ache que o termo intervalo de confiança não seja muito correto aqui).

Os efeitos aleatórios cruzados serão problemáticos devido aos dados desequilibrados? Se sim, quais outras abordagens devo considerar?

Respostas:


4

Quanto aos dados desequilibrados, a glmer é capaz de lidar com grupos desequilibrados: esse era realmente o objetivo de desenvolver abordagens de modelos mistos em comparação com ANOVAs de medidas repetidas, restritas a projetos balanceados. Incluir clientes ou fornecedores com poucos eventos (mesmo que apenas um) é ainda melhor do que omiti-los, pois melhora a estimativa da variação residual (ver Martin et al. 2011 ).

Se você deseja usar os BLUPs ( ranef(model)) como um proxy de habilidades, terá de estimar a incerteza em torno de suas previsões de pontos. Isso pode ser feito em uma estrutura frequentista usando ranef(model, postVar=TRUE)ou através da distribuição posterior em uma estrutura bayesiana. No entanto, você não deve usar BLUPs como variável de resposta em outros modelos de regressão: consulte Hadfield et al. (2010) para exemplos de uso indevido de BLUPs e métodos diferentes para levar em consideração adequadamente suas incertezas.

Quanto à correlação de habilidades entre clientes e provedores, esse desequilíbrio pode ser problemático se for muito forte, pois impediria a estimativa correta da variação devido a cada efeito aleatório. Não parece haver uma estrutura de modelos mistos que possa lidar facilmente com a correlação entre interceptações aleatórias (veja aqui uma expressão formal do seu problema). Você poderia precisar o quão correlacionados estão os sucessos médios de clientes e fornecedores?


Muito obrigado por abordar uma das minhas perguntas antigas. A resposta ainda é relevante e as orientações e referências são apreciadas. Desculpe, demorou tanto para eu perceber que estava lá! Eu marquei como resolvido.
colonel.triq
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.