Avaliando um modelo de regressão logística

Estou trabalhando em um modelo logístico e estou tendo algumas dificuldades para avaliar os resultados. Meu modelo é um logit binomial. Minhas variáveis explicativas são: uma variável categórica com 15 níveis, uma variável dicotômica e 2 variáveis contínuas. Meu N é grande> 8000.

Estou tentando modelar a decisão das empresas de investir. A variável dependente é investimento (sim / não), as 15 variáveis de nível são obstáculos diferentes para os investimentos relatados pelos gerentes. O restante das variáveis são controles de vendas, créditos e capacidade utilizada.

Abaixo estão meus resultados, usando o rmspacote em R.

  Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
Obs          8035    LR chi2     399.83    R2       0.067    C       0.632    
 1           5306    d.f.            17    g        0.544    Dxy     0.264    
 2           2729    Pr(> chi2) <0.0001    gr       1.723    gamma   0.266    
max |deriv| 6e-09                          gp       0.119    tau-a   0.118    
                                           Brier    0.213                     

          Coef    S.E.   Wald Z Pr(>|Z|)
Intercept -0.9501 0.1141 -8.33  <0.0001 
x1=10     -0.4929 0.1000 -4.93  <0.0001 
x1=11     -0.5735 0.1057 -5.43  <0.0001 
x1=12     -0.0748 0.0806 -0.93  0.3536  
x1=13     -0.3894 0.1318 -2.96  0.0031  
x1=14     -0.2788 0.0953 -2.92  0.0035  
x1=15     -0.7672 0.2302 -3.33  0.0009  
x1=2      -0.5360 0.2668 -2.01  0.0446  
x1=3      -0.3258 0.1548 -2.10  0.0353  
x1=4      -0.4092 0.1319 -3.10  0.0019  
x1=5      -0.5152 0.2304 -2.24  0.0254  
x1=6      -0.2897 0.1538 -1.88  0.0596  
x1=7      -0.6216 0.1768 -3.52  0.0004  
x1=8      -0.5861 0.1202 -4.88  <0.0001 
x1=9      -0.5522 0.1078 -5.13  <0.0001 
d2         0.0000 0.0000 -0.64  0.5206  
f1        -0.0088 0.0011 -8.19  <0.0001 
k8         0.7348 0.0499 14.74  <0.0001

Basicamente, quero avaliar a regressão de duas maneiras: a) quão bem o modelo se ajusta aos dados eb) quão bem o modelo prevê o resultado. Para avaliar a qualidade do ajuste (a), acho que os testes de desvio baseados no qui-quadrado não são apropriados neste caso, porque o número de covariáveis únicas se aproxima de N, portanto, não podemos assumir uma distribuição X2. Esta interpretação está correta?

Eu posso ver as covariáveis usando o epiRpacote.

require(epiR)
logit.cp <- epi.cp(logit.df[-1]))

    id n x1   d2 f1 k8
     1 1 13 2030 56  1
     2 1 14  445 51  0
     3 1 12 1359 51  1
     4 1  1 1163 39  0
     5 1  7  547 62  0
     6 1  5 3721 62  1
    ...
    7446

Também li que o teste Hosmer-Lemeshow GoF está desatualizado, pois divide os dados por 10 para executar o teste, o que é bastante arbitrário.

Em vez disso, uso o teste le Cessie-van Houwelingen-Copas-Hosmer, implementado no rmspacote. Não sei exatamente como esse teste é realizado, ainda não li os documentos sobre o assunto. De qualquer forma, os resultados são:

Sum of squared errors    Expected value|H0           SD             Z            P
         1711.6449914         1712.2031888    0.5670868    -0.9843245    0.3249560

P é grande, então não há evidências suficientes para dizer que meu modelo não se encaixa. Ótimo! Contudo....

Ao verificar a capacidade preditiva do modelo (b), desenhei uma curva ROC e descobri que a AUC é 0.6320586. Isso não parece muito bom.

insira a descrição da imagem aqui

Então, para resumir minhas perguntas:

Os testes que eu executo são adequados para verificar meu modelo? Que outro teste eu poderia considerar?
Você considera o modelo útil ou o descartaria com base nos resultados relativamente pobres da análise ROC?

r logistic goodness-of-fit roc

— Federico C
fonte

Tem certeza de que x1deve ser tomado como uma única variável categórica? Ou seja, todos os casos precisam ter 1, e apenas 1, 'obstáculo' ao investimento? Eu acho que alguns casos podem ser confrontados com 2 ou mais dos obstáculos, e alguns casos não têm.

— gung - Restabelece Monica

Existem muitos milhares de testes que podemos aplicar para inspecionar um modelo de regressão logística, e muito disso depende se o objetivo de alguém é previsão, classificação, seleção de variáveis, inferência, modelagem causal etc. O teste de Hosmer-Lemeshow, por exemplo, avalia calibração do modelo e se os valores previstos tendem a corresponder à frequência prevista quando divididos por decis de risco. Embora a escolha de 10 seja arbitrária, o teste tem resultados assintóticos e pode ser facilmente modificado. O teste HL, assim como a AUC, têm (na minha opinião) resultados muito desinteressantes quando calculados com os mesmos dados usados para estimar o modelo de regressão logística. É uma maravilha programas como SAS e SPSS fez o relato frequente de estatísticas para descontroladamente diferentes análises a de factomaneira de apresentar os resultados da regressão logística. Testes de precisão preditiva (por exemplo, HL e AUC) são mais bem empregados com conjuntos de dados independentes ou (ainda melhor) dados coletados em diferentes períodos no tempo para avaliar a capacidade preditiva de um modelo.

Outro ponto a destacar é que previsão e inferência são coisas muito diferentes. Não existe uma maneira objetiva de avaliar a previsão, uma AUC de 0,65 é muito boa para prever eventos muito raros e complexos, como 1 ano de risco de câncer de mama. Da mesma forma, a inferência pode ser acusada de ser arbitrária, porque a taxa de falsos positivos tradicional de 0,05 é geralmente comum.

Se eu fosse você, sua descrição do problema parecia interessada em modelar os efeitos do gerente relatados "obstáculos" ao investimento; portanto, concentre-se em apresentar as associações ajustadas pelo modelo. Apresente as estimativas pontuais e os intervalos de confiança de 95% para as razões de chances do modelo e esteja preparado para discutir seu significado, interpretação e validade com outras pessoas. Um gráfico de floresta é uma ferramenta gráfica eficaz. Você também deve mostrar a frequência desses obstáculos nos dados e apresentar sua mediação por outras variáveis de ajuste para demonstrar se a possibilidade de confusão foi pequena ou grande em resultados não ajustados. Eu iria ainda mais longe e exploraria fatores como o alfa de Cronbach para obter consistência entre os gerentes que relataram obstáculos para determinar se os gerentes tendiam a relatar problemas semelhantes ou,

Acho que você está focado demais nos números e não na pergunta em questão. 90% de uma boa apresentação estatística ocorre antes da apresentação dos resultados do modelo.

— AdamO
fonte

Obrigado Adam pela sua resposta! Baseei a maior parte da minha análise na interpretação do odds ratio e nas probabilidades previstas. Mas como ainda não estou muito confortável com a regressão logística, temo que minha análise possa ser descartada porque estou perdendo algum teste geral de ajuste de modelo. Mas, como você disse, também acredito que devo me concentrar na interpretação mais substancial do modelo. Vou considerar suas recomendações para parcelas florestais e o Alpha de Cronbach também. Obrigado novamente!

— Federico C

A única violação potencial legítima das suposições do modelo seria dados correlatos, dada a descrição do seu problema. Tendo isso em mente, você pode fazer um teste de dispersão com o modelo de regressão quasibinomial ou pode tentar fazer análises de subgrupos por tipos de setor (para as várias empresas mencionadas) ou tentar novamente as análises de cluster.

— AdamO 01/10