Sim, você pode ajustar demais os modelos de regressão logística. Mas primeiro, gostaria de abordar o ponto sobre a AUC (Área sob a curva de características operacionais do receptor): Não há regras gerais universais com a AUC, sempre.
O que é a AUC é a probabilidade de que um positivo (ou caso) amostrado aleatoriamente tenha um valor de marcador mais alto que um negativo (ou controle), porque o AUC é matematicamente equivalente à estatística U.
O que a AUC não é é uma medida padronizada de precisão preditiva. Eventos altamente determinísticos podem ter AUCs de preditores únicos de 95% ou mais (como mecatrônica, robótica ou óptica controlada), alguns modelos complexos de previsão de risco logístico multivariável têm AUCs de 64% ou menos, como previsão de risco de câncer de mama, e esses são níveis relativamente altos de precisão preditiva.
Um valor sensível da AUC, como em uma análise de potência, é pré-especificado, reunindo-se conhecimento dos antecedentes e objetivos de um estudo a priori . O médico / engenheiro descreve o que eles querem e você, o estatístico, decide sobre um valor de AUC alvo para o seu modelo preditivo. Então começa a investigação.
É realmente possível superajustar um modelo de regressão logística. Além da dependência linear (se a matriz do modelo é de classificação deficiente), você também pode ter perfeita concordância ou esse é o gráfico de valores ajustados contra Y que discrimina perfeitamente casos e controles. Nesse caso, seus parâmetros não convergiram, mas simplesmente residem em algum lugar no espaço limite que oferece uma probabilidade de . Às vezes, no entanto, a AUC é 1 apenas por acaso.∞
Existe outro tipo de viés que surge da adição de muitos preditores ao modelo, e esse é um pequeno viés de amostra. Em geral, as razões de chances logarítmicas de um modelo de regressão logística tendem a um fator tendencioso de devido à não colapsabilidade da razão de chances e contagem zero de células. Em inferência, isso é tratado usando regressão logística condicional para controlar variáveis de confusão e precisão em análises estratificadas. No entanto, na previsão, você é SooL. Não há previsão generalizável quando você tem p ≫ n π ( 1 - π ) , ( π = Prob ( Y = 1 )2 βp ≫ n π( 1 - π)π= Prob ( Y= 1 )) porque é garantido que você modelou os "dados" e não a "tendência" nesse momento. A previsão de alta dimensão ( grande ) de resultados binários é melhor realizada com métodos de aprendizado de máquina. Compreender a análise discriminante linear, mínimos quadrados parciais, previsão de vizinhos mais próximos, reforço e florestas aleatórias seria um bom ponto de partida.p