A questão CV
Estou tentando fornecer (a) representações matemáticas detalhadas e concisas de um modelo de efeitos mistos. Estou usando o lme4
pacote em R. Qual é a representação matemática correta para o meu modelo?
Dados, Questão Científica e Código R
Meu conjunto de dados consiste em espécies em diferentes regiões. Estou testando se a prevalência de uma espécie muda no tempo que leva à extinção (extinções não são necessariamente permanentes; podem recolonizar), ou após uma colonização.
lmer(prevalence ~ time + time:type + (1 + time + type:time | reg) + (1 + time + type:time | reg:spp))
- Prevalência é a proporção de estratos ocupados por uma espécie em uma região / ano
- O tempo é uma variável contínua que indica o tempo para extinção ou colonização; é sempre positivo
- Tipo é uma variável categórica com dois níveis. Esses dois níveis são "-" e "+". Quando o tipo é -, é uma colonização (nível padrão). Quando o tipo é +, é uma extinção.
- Reg é uma variável categórica com nove níveis, indicando a região
- Spp é uma variável categórica; o número de níveis varia entre as regiões e varia entre 48 e 144.
Em palavras: variável de resposta é prevalência (proporção de estratos ocupados). Os efeitos fixos incluíram 1) e interceptar, 2) tempo do evento e 3) a interação entre o tempo do evento e o tipo de evento (colonização ou extinção). Cada um desses três efeitos fixos variava aleatoriamente entre as regiões. Dentro de uma região, cada um dos efeitos variou aleatoriamente entre as espécies.
Estou tentando descobrir como escrever a equação matemática para o modelo. Eu acho que entendo o que está acontecendo no código R (embora eu tenha certeza que tenho algumas lacunas de conhecimento, e espero que escrever a expressão matemática formal melhore minha compreensão).
Eu pesquisei bastante na web e nesses fóruns. Encontrei toneladas de informações úteis, com certeza (e talvez eu vincule algumas delas em uma edição desta pergunta). No entanto, eu não consegui encontrar a "Rosetta Stone" do código R traduzida para matemática (estou mais à vontade com o código) que realmente me ajudaria a confirmar que tenho essas equações corretas. Na verdade, eu sei que já existem algumas lacunas, mas vamos chegar a isso.
Minha tentativa
A forma básica de um modelo de efeitos mistos, em notação matricial, é (pelo meu entendimento):
β
- Δ t Δ t + é a matriz de design para os efeitos fixos, é o tempo após a colonização ( ) e é o tempo após a extinção ( )
time
time:type
- é a matriz de design dos efeitos aleatórios (nível 1?), I () é a função indicadora que fornece 1 se a amostra pertence à região designada e 0 caso contrário, r é indexado para indicar uma das nove regiões.
- γ e contêm parâmetros
- Σ são erros; Não tenho muita certeza de como explicar , embora perceba que uma dessas matrizes de variância / covariância expressará covariâncias entre inclinações e interceptações, por exemplo,
Supondo que as coisas até agora estejam corretas, isso significa que eu sou bom no nível superior. No entanto, explicar a variação específica da espécie nos parâmetros, que está aninhada em cada região, me surpreendeu ainda mais.
Mas fiz uma rachadura em algo que talvez faça sentido ...
Cada um dos parâmetros em é derivado de uma combinação linear de preditores e parâmetros específicos da espécie em uma região. Para cada região, existem 3 linhas de, correspondentes às 3 variáveis preditoras. Cada pode ser expresso individualmente comoγ
-
- onde é uma matriz de desenho específico para a região e preditor , é um 1 por S matriz de parâmetros para a região (riqueza na região = , por exemplo, 48 ou 144), e é uma matriz de termos de erro
Especificamente, para uma determinada região, cada um dos seria:
Isso seria repetido para cada região. Em seguida, , como . Embora, talvez em vez de , exista outra letra, como , que é comumente usada.
Edit: outras perguntas / respostas que foram úteis