Estou modelando alguns dados nos quais acho que tenho dois efeitos aleatórios cruzados. Mas o conjunto de dados não é equilibrado e não tenho certeza do que precisa ser feito para justificá-lo.
Meus dados são um conjunto de eventos. Um evento ocorre quando um cliente se reúne com um provedor para executar uma tarefa, que é bem-sucedida ou não. Existem milhares de clientes e fornecedores, e cada cliente e fornecedor participa de vários números de eventos (aproximadamente 5 a 500). Cada cliente e provedor tem um nível de habilidade, e a chance de que a tarefa seja bem-sucedida é uma função das habilidades de ambos os participantes. Não há sobreposição entre clientes e provedores.
Estou interessado nas respectivas variações da população de clientes e fornecedores, para que possamos saber qual fonte tem um efeito maior na taxa de sucesso. Também quero conhecer os valores específicos das habilidades entre o cliente e os provedores para os quais realmente temos dados, para identificar os melhores / piores clientes ou provedores.
Inicialmente, quero assumir que a probabilidade de sucesso é impulsionada apenas pelos níveis de habilidade combinados do cliente e do provedor, sem outros efeitos fixos. Portanto, assumindo que x é um fator para o cliente e y é um fator para o provedor, em R (usando o pacote lme4) eu tenho um modelo especificado como:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
Um problema é que os clientes não são distribuídos igualmente entre os provedores. É mais provável que os clientes com habilidades mais altas correspondam aos provedores de habilidades mais altas. Meu entendimento é que um efeito aleatório não deve ser correlacionado com outros preditores do modelo, mas não tenho certeza de como explicá-lo.
Além disso, alguns clientes e fornecedores têm muito poucos eventos (menos de 10), enquanto outros têm muitos (até 500), portanto, há uma ampla disseminação na quantidade de dados que temos sobre cada participante. Idealmente, isso seria refletido em um "intervalo de confiança" em torno da estimativa de habilidade de cada participante (embora eu ache que o termo intervalo de confiança não seja muito correto aqui).
Os efeitos aleatórios cruzados serão problemáticos devido aos dados desequilibrados? Se sim, quais outras abordagens devo considerar?