Para melhor fazer minha pergunta, forneci algumas das saídas de um modelo com 16 variáveis ( fit
) e um modelo com 17 variáveis ( fit2
) abaixo (todas as variáveis preditivas nesses modelos são contínuas, onde a única diferença entre esses modelos é que fit
não contém a variável 17 (var17)):
fit Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703
0 69833 d.f. 17 g 1.150 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
fit2 Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13639.70 R2 0.174 C 0.703
0 69833 d.f. 18 g 1.154 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.170 gamma 0.412
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
Eu usei o rms
pacote de Frank Harrell para construir esses lrm
modelos. Como você pode ver, esses modelos não parecem variar muito, se é que existem , entre os índices de discriminação e a discriminação de classificação. Índices ; no entanto, usando lrtest(fit,fit2)
, fui fornecido com os seguintes resultados:
L.R. Chisq d.f. P
3.685374e+01 1.000000e+00 1.273315e-09
Como tal, rejeitaríamos a hipótese nula deste teste de razão de verossimilhança; no entanto, eu assumiria que isso provavelmente se deve ao grande tamanho da amostra ( n = 102849), pois esses modelos parecem ter um desempenho semelhante. Além disso, estou interessado em encontrar uma maneira melhor de comparar formalmente os modelos de regressão logística binária aninhada quando n for grande.
Aprecio muito qualquer feedback, scripts R ou documentação que possa me orientar na direção certa em termos de comparação desses tipos de modelos aninhados! Obrigado!
fit2
é um modelo de 17 variáveis, mas também é o modelo que omite V17
. Você pode querer edith isso.
fit2
para fit
no exemplo acima conforme sua correção. Obrigado!