Modelos mistos lineares generalizados: seleção de modelos

10

Esta pergunta / tópico surgiu em uma discussão com um colega e eu estava procurando algumas opiniões sobre isso:

Estou modelando alguns dados usando uma regressão logística de efeitos aleatórios, mais precisamente uma regressão logística de interceptação aleatória. Para os efeitos fixos, tenho 9 variáveis que são de interesse e são consideradas. Eu gostaria de fazer algum tipo de seleção de modelo para encontrar as variáveis que são significativas e fornecer o "melhor" modelo (apenas efeitos principais).

Minha primeira idéia foi usar o AIC para comparar modelos diferentes, mas com 9 variáveis, não fui muito empolgado para comparar 2 ^ 9 = 512 modelos diferentes (palavra-chave: dragagem de dados).

Eu discuti isso com um colega e ele me disse que se lembrava de ler sobre o uso da seleção de modelos passo a passo (ou para a frente) com GLMMs. Mas, em vez de usar um valor p (por exemplo, com base em um teste de razão de verossimilhança para GLMMs), deve-se usar o AIC como critério de entrada / saída.

Achei essa ideia muito interessante, mas não encontrei referências que discutissem mais sobre isso e meu colega não se lembrava de onde a lia. Muitos livros sugerem o uso da AIC para comparar modelos, mas não encontrei nenhuma discussão sobre o uso junto com um procedimento de seleção de modelo progressivo ou avançado.

Então, eu tenho basicamente duas perguntas:

Há algo de errado em usar o AIC em um procedimento de seleção de modelo gradual como critério de entrada / saída? Se sim, qual seria a alternativa?
Você tem algumas referências que discutem o procedimento acima que (também como referência para um relatório final?

melhor,

Emilia

— Emilia
fonte

3

A seleção de modelo passo a passo é tanto dragagem de dados quanto seleção de subconjunto completo (na verdade, ele tenta encontrar aproximadamente a mesma solução em muito menos tempo). A seleção baseada na AIC também é a dragagem de dados.

— Michael M

7

A seleção por etapas está incorreta nos modelos multiníveis pelas mesmas razões que está incorreta na regressão "regular": os valores de p serão muito baixos, os erros padrão são muito pequenos, o parâmetro estima desviado de 0 etc. Mais importante, ele nega a você a oportunidade de pensar.

9 IVs não são tantos. Por que você escolheu esses 9? Certamente você tinha um motivo.

Uma coisa inicial a fazer é analisar muitas parcelas; quais precisos dependem um pouco se seus dados são longitudinais (nesse caso, plotagens com tempo no eixo x costumam ser úteis) ou agrupadas. Mas certamente observe as relações entre os 9 IVs e o seu DV (gráficos de caixas paralelas são uma possibilidade simples).

O ideal seria construir alguns modelos com base no senso substantivo e compará-los usando AIC, BIC ou alguma outra medida. Mas não se surpreenda se nenhum modelo específico surgir como claramente melhor. Você não diz em que campo trabalha, mas em muitos (a maioria?), A natureza é complicada. Vários modelos podem se encaixar igualmente bem e um modelo diferente pode se encaixar melhor em um conjunto de dados diferente (mesmo que ambos sejam amostras aleatórias da mesma população).

Quanto às referências - existem muitos bons livros sobre modelos mistos não lineares. Qual é o melhor para você depende de a) Qual campo você está b) Qual é a natureza dos dados c) Qual software você usa.

Respondendo ao seu comentário

Se todas as 9 variáveis forem cientificamente importantes, eu consideraria incluir todas elas. Se uma variável que todos consideram importante acaba tendo um pequeno efeito, isso é interessante.
Certamente plote todas as suas variáveis ao longo do tempo e de várias maneiras.
Para questões gerais sobre modelos longitudinais multiníveis, gosto de Hedeker e Gibbons ; para modelos longitudinais não lineares no SAS, eu gosto de Molenberghs e Verbeke . A documentação do SAS em si (para PROC GLIMMIX) também fornece orientação.

— Peter Flom - Restabelece Monica
fonte

Neste estudo, os sujeitos são expostos a diferentes combinações de medicamentos e exercícios ao longo do tempo e o resultado de interesse é a presença de uma determinada condição respiratória (sim / não). Os pacientes são medidos repetidamente a cada 2 semanas durante 6 meses. Em termos de software, uso SAS e R. Os 9 IVs foram escolhidos pelo pesquisador devido à sua importância científica.

— Emilia

A inspeção de dados é tão ruim quanto, se não pior, do que a seleção de modelos algorítmicos. O motivo é que a seleção do modelo algorítmico é bem compreendida e pode ser potencialmente ajustada; examinar os dados e empregar julgamento subjetivo é um processo que não pode ser replicado ou ajustado. De qualquer forma, eu evitaria fazer a seleção de modelos porque a seleção de modelos invalida a inferência. Como existem apenas 9 covariáveis aqui, acho que o melhor conselho é trabalhar com o modelo completo ou com um modelo selecionado com base apenas na substância.

— user3903581

3

A seleção do modelo pode ser melhor realizada usando métodos de contração, como o LASSO. Métodos passo a passo são muito liberais. Uma justificativa pode ser encontrada na página de Tibshirani. Se você estiver usando R, existe um pacote chamado glmmLassoque permite a seleção de modelos em modelos de efeitos mistos lineares generalizados usando o método de retração LASSO.

— Abderrahim Oulhaj
fonte

1

Uma boa referência para a seleção de modelos mistos baseada em AIC em R (também é bom para manequins) seria Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

— Jan Philipp S
fonte