Seleção de modelo: Regressão logística


13

Suponha que temos covariáveis x 1 , , x n e uma variável binária de resultado y . Algumas dessas covariáveis ​​são categóricas com vários níveis. Outros são contínuos. Como você escolheria o "melhor" modelo? Em outras palavras, como você escolhe quais covariáveis ​​incluir no modelo?nx1,,xny

Você modelaria com cada uma das covariáveis ​​individualmente usando regressão logística simples e escolheria aquelas com uma associação significativa?y


1
Além da minha resposta abaixo (ou outras, se surgirem), a seguir há uma boa discussão sobre a seleção de modelos (embora não focada na regressão logística per se) stats.stackexchange.com/questions/18214/…
gung - Reinstate Monica

2
Vou citar @jthetzel de um comentário recente neste site: "Uma boa pergunta, mas que a maioria aqui estudou em cursos universitários semestrais, e alguns passaram carreiras estudando". É como sentar com uma pessoa e dizer: "Você pode me ensinar suaíli esta tarde?" Não que Gung não faça bons comentários em sua resposta. É apenas um vasto território.
Rolando2

2
Este é também um tópico que, embora para uma pergunta muito específica, contenha alguns conselhos de minha parte: stats.stackexchange.com/questions/17068/… Também darei meus pensamentos abaixo.
Fomite 19/11/11

Ok, então eu acho que vou usar apenas AIC como critério. O modelo completo tem o AIC mais baixo. Além disso, os AICs são bem diferentes um do outro.
Thomas

Respostas:


10

Provavelmente isso não é uma coisa boa a se fazer. Analisar todas as covariáveis ​​individuais primeiro e depois construir um modelo com aquelas significativas é logicamente equivalente a um procedimento de pesquisa automática. Embora essa abordagem seja intuitiva, as inferências feitas com esse procedimento não são válidas (por exemplo, os valores p verdadeiros são diferentes dos relatados pelo software). O problema é ampliado quanto maior o tamanho do conjunto inicial de covariáveis. Se você fizer isso de qualquer maneira (e, infelizmente, muitas pessoas fazem), não poderá levar a sério o modelo resultante. Em vez disso, você deve executar um estudo inteiramente novo, reunindo uma amostra independente e ajustando o modelo anterior, para testá-lo. No entanto, isso requer muitos recursos e, além disso, como o processo é defeituoso e o modelo anterior provavelmente é ruim,desperdiçar muitos recursos.

Uma maneira melhor é avaliar modelos de interesse substantivo para você. Em seguida, use um critério de informação que penalize a flexibilidade do modelo (como a AIC) para julgar entre esses modelos. Para regressão logística, o AIC é:

AIC=2×ln(likelihood)+2k

onde é o número de covariáveis ​​incluídas nesse modelo. Você deseja o modelo com o menor valor para a AIC, todas as coisas sendo iguais. No entanto, nem sempre é tão simples; tenha cuidado quando vários modelos tiverem valores semelhantes para a AIC, mesmo que um seja menor. k

Incluo aqui a fórmula completa da AIC, porque diferentes softwares produzem informações diferentes. Pode ser necessário calculá-lo apenas com a probabilidade, ou você pode obter a AIC final ou qualquer outra coisa.


6
Gosto da AIC, mas cuidado com o fato de que a computação da AIC em mais de 2 modelos pré-especificados resulta em um problema de multiplicidade.
precisa

1
@FrankHarrell nice tip!
gung - Restabelece Monica

9

Existem muitas maneiras de escolher quais variáveis ​​vão em um modelo de regressão, algumas decentes, outras ruins e outras terríveis. Pode-se simplesmente procurar as publicações da Sander Greenland, muitas das quais dizem respeito à seleção de variáveis.

De um modo geral, porém, tenho algumas "regras" comuns:

  • Algoritmos automatizados, como aqueles que vêm em pacotes de software, provavelmente são uma má idéia.
  • O uso de técnicas de diagnóstico de modelo, como sugere Gung, é um bom meio de avaliar suas opções de seleção de variáveis.
  • Você também deve usar uma combinação de experiência no assunto, pesquisadores de literatura, gráficos acíclicos direcionados etc. para informar suas opções de seleção de variáveis.

3
Bem, especialmente os pontos 1 e 3. As técnicas de diagnóstico do modelo podem resultar em falha na preservação do erro do tipo I.
precisa

3
Bem, coloque @Epigrad. Eu acrescentaria um ponto. Os algoritmos automatizados tornam-se muito atraentes quando o seu problema se torna grande. Eles podem ser a única maneira viável de fazer a seleção de modelos em alguns casos. As pessoas estão agora analisando enormes conjuntos de dados com milhares de variáveis ​​em potencial e milhões de observações. Como está a experiência do assunto na intuição 1000-dimensional? E o que você encontrará é que, mesmo que você faça isso manualmente (ou seja, com um analista), eles provavelmente acabarão criando algumas regras de atalho para a escolha de variáveis. A parte difícil é realmente codificar essas opções.
probabilityislogic

1
@probabilityislogic Eu concordo com isso. Honestamente, acho que as técnicas tradicionais são pouco adequadas para conjuntos de dados muito grandes, mas a tendência a recorrer a técnicas mais acessíveis me assusta. Se um algoritmo automatizado pode influenciar um conjunto de dados com 10 variáveis, não há razão para não influenciar um com 10.000. A ênfase atual na aquisição de big data sobre sua análise em algumas partes me deixa um pouco nervosa.
fomite

2
@probabilityislogic Em uma reviravolta profundamente irônica, agora me pego trabalhando com um conjunto de dados com mais de 10s de 1000s de variáveis ​​potenciais>. <
Fomite

2

Como você escolheria o "melhor" modelo?

Não há informações suficientes fornecidas para responder a essa pergunta; se você quiser obter efeitos causais em y, precisará implementar regressões que reflitam o que se sabe sobre a confusão. Se você deseja fazer previsões, a AIC seria uma abordagem razoável.

Essas abordagens não são as mesmas; o contexto determinará qual das (muitas) maneiras de escolher variáveis ​​será mais / menos apropriada.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.