Avaliando modelos de regressão logística


13

Essa questão surge da minha confusão real sobre como decidir se um modelo logístico é bom o suficiente. Eu tenho modelos que usam o estado dos pares de projetos individuais dois anos após serem formados como uma variável dependente. O resultado é bem-sucedido (1) ou não (0). Eu tenho variáveis ​​independentes medidas no momento da formação dos pares. Meu objetivo é testar se uma variável, que eu imaginei, influenciaria o sucesso dos pares, afeta esse sucesso, controlando outras influências em potencial. Nos modelos, a variável de interesse é significativa.

Os modelos foram estimados usando a glm()função in R. Para avaliar a qualidade dos modelos, eu fiz algumas coisas: glm()fornece o residual deviance, o AICe o BICpor padrão. Além disso, calculei a taxa de erro do modelo e plotei os resíduos binados.

  • O modelo completo possui um desvio residual menor, AIC e BIC do que os outros modelos que eu estimei (e que estão aninhados no modelo completo), o que me leva a pensar que esse modelo é "melhor" que os outros.
  • A taxa de erro do modelo é bastante baixa, IMHO (como em Gelman e Hill, 2007, pp.99 ):
    error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)em torno de 20%.

Por enquanto, tudo bem. Porém, quando planto o resíduo acumulado (novamente seguindo o conselho de Gelman e Hill), grande parte das caixas fica fora do IC 95%: Lote de resíduos binados

Esse enredo me leva a pensar que há algo totalmente errado no modelo. Isso deveria me levar a jogar fora o modelo? Devo reconhecer que o modelo é imperfeito, mas mantê-lo e interpretar o efeito da variável de interesse? Eu brinquei com a exclusão de variáveis, por sua vez, e também com algumas transformações, sem realmente melhorar o gráfico de resíduos binados.

Editar:

  • No momento, o modelo possui uma dúzia de preditores e 5 efeitos de interação.
  • Os pares são "relativamente" independentes um do outro, no sentido de que todos são formados durante um curto período de tempo (mas não estritamente falando, todos simultaneamente) e há muitos projetos (13k) e muitos indivíduos (19k ), portanto, uma proporção justa de projetos é unida por apenas um indivíduo (existem cerca de 20.000 pares).

2
Y

1
Com base no que você diz, o tamanho da amostra não parece ser um problema, porque eu tenho cerca de 20.000 mil pares (dos quais aproximadamente 20% são bem-sucedidos).
Antoine Vernet

Respostas:


11

A precisão da classificação (taxa de erro) é uma regra de pontuação inadequada (otimizada por um modelo falso), arbitrária, descontínua e fácil de manipular. Não é necessário neste contexto.

Você não indicou quantos preditores havia. Em vez de avaliar o ajuste do modelo, ficaria tentado a ajustá-lo. Uma abordagem de compromisso é assumir que as interações não são importantes e permitir que preditores contínuos não sejam lineares usando splines de regressão. Traçar os relacionamentos estimados. O rmspacote em R torna tudo isso relativamente fácil. Veja http://biostat.mc.vanderbilt.edu/rms para mais informações.

Você pode elaborar "pares" e se suas observações são independentes.


Se entendi corretamente, seu conselho é concentrar-se no gráfico dos resíduos e corrigir esse problema antes de fazer qualquer outra coisa, eventualmente usando splines de regressão, estou correto? Editei a pergunta para indicar quantos preditores existem e que os pares são "relativamente" independentes.
Antoine Vernet

Olá, @Frank. Por que você diz que a precisão da classificação é um método ruim? Isso ocorre porque é aqui avaliado nos mesmos dados em que o modelo é derivado?
Peter Flom - Restabelece Monica

2
χ2c

2
Não, quero dizer, permitir que preditores contínuos operem de maneira não linear na escala de chances de log, expandindo-os em vários termos usando splines cúbicos restritos (splines naturais). Em seguida, plote as transformações estimadas para aprender sobre os efeitos parciais de cada preditor.
precisa

1
Obrigado pela contribuição, foi realmente útil. Aprofundando-me com os dados, percebi que tinha problemas de colinearidade (mesmo que não tivesse correlações altas aos pares).
Antoine Vernet

4

A situação parece um pouco estranha, mas acho que seu enredo pode fornecer uma pista. Parece que pode haver um relacionamento curvilíneo. É permitido usar termos polinomiais e outras transformações de variáveis ​​preditoras (por exemplo,x2) na regressão logística, assim como na regressão OLS. Vale a pena tentar.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.