O advento de modelos lineares generalizados nos permitiu criar modelos de dados do tipo regressão quando a distribuição da variável de resposta não é normal - por exemplo, quando o seu DV é binário. (Se você gostaria de saber um pouco mais sobre GLiMs, escrevi uma resposta bastante extensa aqui , que pode ser útil, embora o contexto seja diferente.) No entanto, um GLiM, por exemplo, um modelo de regressão logística, assume que seus dados são independentes . Por exemplo, imagine um estudo que analise se uma criança desenvolveu asma. Cada criança contribui com umOs dados apontam para o estudo - eles têm asma ou não. Às vezes, os dados não são independentes. Considere outro estudo que analisa se uma criança está resfriada em vários momentos do ano letivo. Nesse caso, cada criança contribui com muitos pontos de dados. Ao mesmo tempo, uma criança pode ter um resfriado, mais tarde não, e ainda mais tarde pode ter outro resfriado. Esses dados não são independentes porque vieram do mesmo filho. Para analisar adequadamente esses dados, precisamos levar em consideração essa não independência. Há duas maneiras: Uma maneira é usar as equações de estimativa generalizada (que você não mencionou, então vamos pular). A outra maneira é usar um modelo misto linear generalizado. Os GLiMMs podem explicar a não independência adicionando efeitos aleatórios (como observa @MichaelChernick). Portanto, a resposta é que sua segunda opção é para dados repetidos fora do normal (ou não independentes). (Devo mencionar, de acordo com o comentário de @ Macro, que modelos mistos lineares generalizados incluem modelos lineares como um caso especial e, portanto, podem ser usados com dados normalmente distribuídos. No entanto, no uso típico, o termo conota dados não normais.)
Atualização: (O OP também perguntou sobre o GEE, então escreverei um pouco sobre como os três se relacionam.)
Aqui está uma visão geral básica:
- um GLiM típico (usarei regressão logística como o caso prototípico) permite modelar uma resposta binária independente em função de covariáveis
- um GLMM permite modelar uma resposta binária não independente (ou em cluster) condicional aos atributos de cada cluster individual como uma função de covariáveis
- o GEE permite modelar a resposta média da população de dados binários não independentes em função de covariáveis
Como você tem várias tentativas por participante, seus dados não são independentes; como você observou corretamente, "[os] materiais dentro de um participante provavelmente serão mais semelhantes do que em comparação com todo o grupo". Portanto, você deve usar um GLMM ou o GEE.
A questão, então, é como escolher se o GLMM ou o GEE seria mais apropriado para sua situação. A resposta a esta pergunta depende do assunto da sua pesquisa - especificamente, o objetivo das inferências que você espera fazer. Como afirmei acima, com um GLMM, os betas estão falando sobre o efeito de uma alteração de uma unidade em suas covariáveis em um determinado participante, dadas as características individuais deles. Por outro lado, com o GEE, os betas estão falando sobre o efeito de uma alteração de uma unidade em suas covariáveis na média das respostas de toda a população em questão. Essa é uma distinção difícil de entender, especialmente porque não existe essa distinção com modelos lineares (nesse caso, os dois são a mesma coisa).
Uma maneira de tentar entender isso é imaginar uma média da população em ambos os lados do sinal de igual em seu modelo. Por exemplo, este pode ser um modelo:
que:
Há um parâmetro que governa a distribuição da resposta ( , a probabilidade, com dados binários) no lado esquerdo de cada participante. No lado direito, existem coeficientes para o efeito da covariável e do nível de linha de base quando a covariável é igual a 0. A primeira coisa a notar é que a interceptação real para qualquer indivíduo específico não é , mas sim
logit ( pEu) = β0 0+ β1 1X1 1+ bEu
pβ0(β0+bi)biβ0β1pilogitβ1logit ( p ) = ln( p1 - p) ,&b∼ N ( 0 , σ2b)
p β0 0( β0 0+ bEu) . Mas e daí? Se estamos assumindo que os 's (o efeito aleatório) são normalmente distribuídos com uma média de 0 (como fizemos), certamente podemos média sem dificuldade (seria apenas ). Além disso, neste caso, não temos um efeito aleatório correspondente para as pistas e, portanto, a média delas é apenas . Portanto, a média das interceptações mais a média das pistas deve ser igual à transformação logit da média dos 's à esquerda, não deve? Infelizmente
não . O problema é que entre esses dois está o , que é um
não linear.bEuβ0 0β1 1pEulogittransformação. (Se a transformação fosse linear, eles seriam equivalentes, e é por isso que esse problema não ocorre em modelos lineares.) O gráfico a seguir esclarece:
Imagine que esse gráfico represente o processo de geração de dados subjacente para a probabilidade de uma classe pequena dos alunos será capaz de passar em um teste em algum assunto com um determinado número de horas de instrução sobre esse tópico. Cada uma das curvas cinza representa a probabilidade de passar no teste com quantidades variáveis de instrução para um dos alunos. A curva em negrito é a média de toda a classe. Nesse caso, o efeito de uma hora adicional de ensino
condicional nos atributos do aluno é
β1 1- o mesmo para cada aluno (ou seja, não há uma inclinação aleatória). Observe, porém, que a capacidade da linha de base dos alunos difere entre eles - provavelmente devido a diferenças em coisas como QI (ou seja, existe uma interceptação aleatória). A probabilidade média da turma como um todo, no entanto, segue um perfil diferente dos alunos. O resultado surpreendentemente contra-intuitivo é o seguinte:
uma hora adicional de instrução pode ter um efeito considerável na probabilidade de cada aluno passar no teste, mas tem relativamente pouco efeito na provável proporção total de alunos que passam . Isso ocorre porque alguns alunos já podem ter uma grande chance de passar, enquanto outros ainda podem ter pouca chance.
A questão de se você deve usar um GLMM ou o GEE é a questão de qual dessas funções você deseja estimar. Se você quiser saber sobre a probabilidade de aprovação de um determinado aluno (se, por exemplo, você era o aluno ou os pais dele), você deseja usar um GLMM. Por outro lado, se você deseja saber sobre o efeito na população (se, por exemplo, você era o professor ou o diretor), você gostaria de usar o GEE.
Para outra discussão mais detalhada matematicamente deste material, consulte esta resposta do @Macro.