Diagnóstico Residual e Homogeneidade de Variâncias no Modelo Misto Linear

10

Antes de fazer essa pergunta, pesquisei em nosso site e encontrei muitas perguntas semelhantes (como aqui , aqui e aqui ). Mas acho que essas perguntas relacionadas não foram bem respondidas ou discutidas, portanto, gostaria de levantar essa questão novamente. Eu acho que deve haver uma grande quantidade de audiência que deseja que esse tipo de pergunta seja explicado mais claramente.

Para minhas perguntas, primeiro considere o modelo linear de efeitos mistos,

y = X β + Z γ + ϵ

$\mathbf{y = X\boldsymbol \beta + Z \boldsymbol \gamma + \boldsymbol \epsilon}$ que

X β

$X\boldsymbol \beta$ é o componente linear de efeitos fixos,

Z

$\mathbf{Z}$ é a matriz de design adicional que corresponde aos parâmetros de efeitos aleatórios ,

γ

$\boldsymbol \gamma$ . E

ϵ \sim N (0, σ^{2} I)

$\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$ é o termo de erro usual.

Vamos supor que o único fator de efeito fixo seja uma variável categórica Tratamento , com 3 níveis diferentes. E o único fator de efeito aleatório é a variável Assunto . Dito isto, temos um modelo de efeito misto com efeito de tratamento fixo e efeito de sujeito aleatório.

Minhas perguntas são assim são:

Existe a suposição de homogeneidade de variância na configuração linear de modelos mistos, análoga aos modelos tradicionais de regressão linear? Se sim, o que a suposição significa especificamente no contexto do problema do modelo misto linear declarado acima? Quais são outras suposições importantes que precisam ser avaliadas?

Meus pensamentos: SIM. as suposições (quero dizer, zero erro médio e igual variação) ainda são daqui: . Na configuração tradicional do modelo de regressão linear, podemos dizer que a suposição é que "a variação dos erros (ou apenas a variação da variável dependente) é constante nos três níveis de tratamento". Mas estou perdido como podemos explicar essa suposição sob a configuração do modelo misto. Devemos dizer "as variações são constantes em três níveis de tratamentos, condicionando os sujeitos? Ou não?" $\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$

O documento on-line do SAS sobre os resíduos e o diagnóstico de influência trouxe dois resíduos diferentes, ou seja, os resíduos marginais , e os resíduos condicionais , Minha pergunta é: para que servem os dois resíduos? Como poderíamos usá-los para verificar a suposição de homogeneidade? Para mim, apenas os resíduos marginais podem ser usados para resolver a questão da homogeneidade, pois corresponde ao do modelo. Meu entendimento aqui está correto?
$r_{m} = Y - X \hat{β}$ $\mathbf{r_m = Y - X \hat{\boldsymbol \beta}}$ $r_{c} = Y - X \hat{β} - Z \hat{γ} = r_{m} - Z \hat{γ} .$ $\mathbf{r_c = Y - X \hat{\boldsymbol \beta} - Z \hat{\boldsymbol \gamma} = r_m - Z \hat{\boldsymbol \gamma}} .$ $\boldsymbol \epsilon$
Existem testes propostos para testar a premissa de homogeneidade no modelo misto linear? @Kam apontou o teste do levene anteriormente, seria esse o caminho certo? Caso contrário, quais são as instruções? Acho que depois que ajustamos o modelo misto, podemos obter os resíduos e talvez fazer alguns testes (como o teste de qualidade do ajuste?), Mas não tenho certeza de como seria.
Também notei que existem três tipos de resíduos do Proc Mixed no SAS, a saber, o resíduo bruto , o residual estudantilizado e o residual de Pearson . Eu posso entender as diferenças entre eles em termos de fórmulas. Mas para mim eles parecem muito semelhantes quando se trata de gráficos de dados reais. Então, como eles devem ser usados na prática? Existem situações em que um tipo é preferido em relação aos outros?
Para um exemplo de dados reais, os dois gráficos residuais a seguir são do Proc Mixed no SAS. Como a suposição da homogeneidade das variações pode ser tratada por eles?

[Eu sei que tenho algumas perguntas aqui. Se você pudesse me fornecer algum de seus pensamentos para qualquer pergunta, isso é ótimo. Não há necessidade de abordar todos eles, se você não puder. Eu realmente gostaria de discutir sobre eles para obter uma compreensão completa. Obrigado!]

Aqui estão os gráficos residuais marginais (brutos).

Aqui estão os gráficos residuais condicionais (brutos).

— Aaron Zeng
fonte

Grandes questões - uma possível resposta para o número 2 pode ser encontrada aqui comp.soft-sys.sas.narkive.com/7Qmrgufe/...

— Dandar

3

Penso que as perguntas 1 e 2 estão interconectadas. Primeiro, a suposição de homogeneidade de variância vem daqui, . Mas essa suposição pode ser relaxada para estruturas de variação mais gerais, nas quais a suposição de homogeneidade não é necessária. Isso significa que realmente depende de como a distribuição de é assumida. $\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$ $\boldsymbol \epsilon$

Segundo, os resíduos condicionais são usados para verificar a distribuição de (portanto, quaisquer suposições relacionadas a) , enquanto os resíduos marginais podem ser usados para verificar a estrutura total da variação. $\boldsymbol \epsilon$

— Aaron Zeng
fonte

Estou enfrentando alguns dos mesmos problemas que o @AaronZeng. O que significa "verificar a estrutura total da variação", para a qual os resíduos marginais devem ser usados? Como é que se faz isso e por que não se concentra apenas em verificar a estrutura de variação para ? Obrigado. $\gamma$

— clarpaul

1

Este é um tópico realmente amplo e apenas fornecerei uma imagem geral sobre a conexão com a regressão linear padrão.

No modelo listado na pergunta, se , onde representa um sujeito ou cluster. Seja . Usando a decomposição de Cholesky , podemos transformar a matriz de resultados e design,

y_{i} \sim N (X_{i} β, Z_{i} D Z_{i}^{'} + σ^{2} I),

$\mathbf{y_i \sim N(X_i\boldsymbol \beta, Z_i \boldsymbol D Z'_i + \boldsymbol \sigma^2 I)},$

γ_{i} \sim N (0, D)

$\boldsymbol \gamma_i \sim N(\mathbf{0, D})$

i

$i$

Σ_{i} = Z_{i} D Z_{i}^{'} + σ^{2} I

$\mathbf{\Sigma_i=Z_i \boldsymbol D Z'_i + \boldsymbol \sigma^2 I}$

Σ_{i} = L_{i} L_{i}^{'}

$\mathbf{\Sigma_i=L_i L'_i}$

y_{i}^{*} = L_{i}^{- 1} y_{i}; X_{i}^{*} = L_{i}^{- 1} X_{i} .

$\mathbf{y^*_i=L_i^{-1}y_i; X^*_i=L_i^{-1}X_i}.$

Conforme observado na Análise longitudinal aplicada (Página 268), a estimativa de mínimos quadrados generalizados (GLS) de (regressão em ) pode ser re-estimada a partir da regressão OLS de em . Portanto, todos os diagnósticos residuais internos do OLS resultante podem ser usados aqui . $\boldsymbol \beta$ $\mathbf y_i$ $\mathbf X_i$ $\mathbf y^*_i$ $\mathbf X^*_i$

O que precisamos fazer é:

estimar partir das estimativas (marginais) de componentes residuais ou de variação no modelo misto linear; $\boldsymbol \Sigma_i$
ajuste novamente uma regressão OLS usando os dados transformados.

A regressão OLS assume observações independentes com variação homogênea, de modo que técnicas de diagnóstico padrão podem ser aplicadas aos seus resíduos.

Muito mais detalhes podem ser encontrados no capítulo 10 "Análises e diagnósticos residuais" do livro Análise longitudinal aplicada . Eles também discutiram a transformação do residual com , e existem alguns gráficos de resíduos (transformados) (vs valores ou preditores previstos). Mais leituras estão listadas em 10.8 "Leituras adicionais" e notas bibliográficas. $\mathbf L_i$

Além disso, na minha opinião, dado que assumimos que são independentes com variação homogênea, podemos testar essas suposições nos resíduos condicionais usando as ferramentas da regressão padrão. $\boldsymbol \epsilon$

— Randel
fonte

Um artigo quente sobre a imprensa sobre este tópico.

— Randel