Perguntas sobre a especificação de modelos mistos lineares em R para dados de medidas repetidas com estrutura de aninhamento adicional

Estrutura de dados

> str(data)
 'data.frame':   6138 obs. of  10 variables:
 $ RT     : int  484 391 422 516 563 531 406 500 516 578 ...
 $ ASCORE : num  5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ...
 $ HSCORE : num  6 2.1 7.9 1 6.9 8.9 8.2 3.6 1.7 8.6 ...
 $ MVMNT  : Factor w/ 2 levels "_Withd","Appr": 2 2 1 1 2 1 2 1 1 2 ...
 $ STIM   : Factor w/ 123 levels " arti"," cele",..: 16 23 82 42 105 4 93 9 34 25 ...
 $ DRUG   : Factor w/ 2 levels "Inactive","Pharm": 1 1 1 1 1 1 1 1 1 1 ...
 $ FULLNSS: Factor w/ 2 levels "Fasted","Fed": 2 2 2 2 2 2 2 2 2 2 ...
 $ PATIENT: Factor w/ 25 levels "Subj01","Subj02",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ SESSION: Factor w/ 4 levels "Sess1","Sess2",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ TRIAL  : Factor w/ 6138 levels "T0001","T0002",..: 1 2 3 4 5 6 7 8 9 10 ...

Candidato Modelo Completo

model.loaded.fit <- lmer(RT ~ ASCORE*HSCORE*MVMNT*DRUG*FULLNSS
                              + (1|PATIENT) + (1|SESSION), data, REML = TRUE)

Os tempos de reação dos ensaios são agrupados em sessões, que por sua vez são agrupados em pacientes
Cada tentativa pode ser caracterizada por duas covariáveis contínuas de ASCORE e HSCORE (variando de 1 a 9) e por uma resposta de movimento (retirada ou abordagem)
As sessões são caracterizadas pela ingestão de medicamentos (placebo ou pharmacon ativo) e por plenitude (em jejum ou pré-alimentação)

Modelagem e sintaxe R?

Estou tentando especificar um modelo completo apropriado com uma estrutura média carregada que pode ser usada como ponto de partida em uma estratégia de seleção de modelo de cima para baixo.

Questões específicas:

A sintaxe está especificando corretamente os efeitos de agrupamento e aleatórios?
Além da sintaxe, esse modelo é apropriado para o design dentro do assunto acima?
O modelo completo deve especificar todas as interações de efeitos fixos ou apenas as que realmente me interessam?
Não incluí o fator STIM no modelo, que caracteriza o tipo de estímulo específico usado em um estudo, mas que não estou interessado em estimar de nenhuma forma - devo especificar que, como fator aleatório, dado que tem 123 níveis e muito poucos pontos de dados por tipo de estímulo?

— Cel
fonte

se eu não conseguir encontrar conselhos aqui, eu realmente não sei quem eu poderia perguntar? talvez você conheça algum fórum dedicado a modelos mistos ou mesmo um especialista disposto a consultar por um pouco de dinheiro?

— Cel

Olá @Cel, parece que você tem TODAS as interações no modelo, incluindo as interações de 5, 4 e 3 vias. Não tenho certeza sobre esse caso, mas isso normalmente superapropriação dos dados, o que tornará seus resultados menos generalizáveis. A seleção para trás (se você precisar usá-la) não precisa começar com um modelo completamente saturado - ela deve começar com o maior modelo que você achar plausível. Você pode reduzir isso?

— Macro

@ Macro ótimo saber, vou incluir apenas as interações que parecem plausíveis então. você tem sugestões sobre os outros problemas? se o fizer, talvez coloque-o como uma resposta para que eu possa aceitá-lo.

— Cel

Vou responder a cada uma das suas perguntas por vez.

A sintaxe está especificando corretamente os efeitos de agrupamento e aleatórios?

O modelo que você se encaixa aqui é, em termos matemáticos, o modelo

Y_{i j k} = X_{i j k} β + η_{i} + θ_{i j} + ε_{i j k}

$Y_{ijk} = {\bf X}_{ijk} {\boldsymbol \beta} + \eta_{i} + \theta_{ij} + \varepsilon_{ijk}$

Onde

$Y_{ijk}$ é o tempo de reação para a observação durante a sessão no indivíduo . $k$ $j$ $i$
${\bf X}_{ijk}$ é o vetor preditivo da observação durante a sessão no indivíduo (no modelo que você escreveu, este é composto por todos os efeitos principais e todas as interações). $k$ $j$ $i$
$\eta_i$ é a pessoa efeito aleatório que induz correlação entre as observações feitas na mesma pessoa. é o efeito aleatório para o indivíduo 's sessão e é o termo de erro de sobra. $i$ $\theta_{ij}$ $i$ $j$ $\varepsilon_{ijk}$
${\boldsymbol \beta}$ é o vetor do coeficiente de regressão.

Conforme observado na página 14-15, este modelo está correto ao especificar que as sessões são aninhadas em indivíduos, como é o caso da sua descrição.

Além da sintaxe, esse modelo é apropriado para o design dentro do assunto acima?

Penso que este modelo é razoável, pois respeita a estrutura de aninhamento nos dados e acho que indivíduo e sessão são razoavelmente vistos como efeitos aleatórios, como afirma este modelo. Você deve examinar os relacionamentos entre os preditores e a resposta com gráficos de dispersão etc. para garantir que o preditor linear ( ) esteja especificado corretamente. Os outros diagnósticos de regressão padrão também devem ser examinados. ${\bf X}_{ijk} {\boldsymbol \beta}$

O modelo completo deve especificar todas as interações de efeitos fixos ou apenas as que realmente me interessam?

Eu acho que começar com um modelo tão saturado pode não ser uma ótima idéia, a menos que faça sentido substancialmente. Como eu disse em um comentário, isso tenderá a superajustar seu conjunto de dados específico e poderá tornar seus resultados menos generalizáveis. Com relação à seleção de modelo, se você começar com o modelo completamente saturado e fazer a seleção inversa ( que algumas pessoas neste site, por um bom motivo, objetam ), será necessário respeitar a hierarquia no modelo. Ou seja, se você eliminar uma interação de nível inferior do modelo, também deverá excluir todas as interações de nível superior que envolvam essa variável. Para mais discussão sobre isso, consulte o tópico vinculado.

Não incluí o fator STIM no modelo, que caracteriza o tipo de estímulo específico usado em um estudo, mas que não estou interessado em estimar de nenhuma forma - devo especificar que, como fator aleatório, dado que tem 123 níveis e muito poucos pontos de dados por tipo de estímulo?

É certo que não sabemos nada sobre o aplicativo (então leve isso com um pouco de sal), que soa como um efeito fixo, não um efeito aleatório. Ou seja, o tipo de tratamento soa como uma variável que corresponderia a uma mudança fixa na resposta média, e não algo que induziria correlação entre indivíduos que tinham o mesmo tipo de estímulo. Porém, o fato de ser um fator de nível 123 torna difícil a entrada no modelo. Suponho que gostaria de saber o tamanho de um efeito que você espera que isso aconteça. Independentemente do tamanho do efeito, ele não induzirá viés nas estimativas de inclinação, pois esse é um modelo linear, mas deixar de fora pode aumentar os erros padrão do que seriam de outra forma.

— Macro
fonte

Uau. obrigado Macro, eu gostaria de poder dar mais pontos.

— Cel

Como os efeitos aleatórios são cruzados, e não aleatórios, a notação deve ser e (em vez de ), já que desde que é cruzada (e não aninhada) com o paciente?

η_{i}

$\eta_{i}$

θ_{j}

$\theta_{j}$

θ_{j}

$\theta_{j}$

— Joshua Rosenberg