Sobregravando um modelo de regressão logística

28

É possível superajustar um modelo de regressão logística? Vi um vídeo dizendo que, se minha área sob a curva ROC for superior a 95%, é muito provável que ela esteja excessivamente ajustada, mas é possível ajustar demais um modelo de regressão logística?

logistic overfitting regression-strategies

— carlosedubarreto
fonte

11

Você pode dizer qual vídeo, ou pelo menos dar um pouco mais de contexto?

— Glen_b -Reinstala Monica

2

Claro @Glen_b, o vídeo era este: link O comentário foi aos 40min. Dizia o seguinte: quando o ROC tem uma AUC entre 0,5 e 0,6, era Ruim. Se estiver entre 0,6 e 0,7, está abaixo da média. Se entre 0,7 e 0,75 é uma média / Bom. Entre 0,75 e 0,8 é bom. Se entre 0,8 e 0,9 é excelente. Se for maior que 0,9, é suspeito e, se for maior que 0,95, está sobreajustado. Eu achei essa explicação muito fácil de entender, mas está certo? Porque estou procurando algo para fazer backup desse pensamento, mas não estou encontrando.

— Carlosedubarreto

E Glen_B, a explicação que o @AdamO deu parece que a explicação que eu vi no vídeo não estava exatamente certa, mas talvez eu tenha entendido errado a explicação de Adam. Essas coisas do Statiscs são muito complexas, mas é um verdadeiro prazer mergulhar fundo nisso. :)

— carlosedubarreto

Eu acho que a explicação do AdamO é boa (eu a votei), mas as perguntas devem ser recursos permanentes; um leitor posterior (por exemplo, alguém com uma pergunta semelhante) pode querer o contexto de saber o que foi dito. Acho que sua descrição no comentário fornece contexto suficiente para a maioria das pessoas e o link serve para o resto. Então obrigado! Você fez sua pergunta mais útil.

— Glen_b -Reinstate Monica

Muito obrigado @Glen_b, estou aprendendo a usar essa ferramenta incrível que temos (neste fórum). Lembrarei sua dica ao fazer novas perguntas.

— Carlosedubarreto 12/10

35

Sim, você pode ajustar demais os modelos de regressão logística. Mas primeiro, gostaria de abordar o ponto sobre a AUC (Área sob a curva de características operacionais do receptor): Não há regras gerais universais com a AUC, sempre.

O que é a AUC é a probabilidade de que um positivo (ou caso) amostrado aleatoriamente tenha um valor de marcador mais alto que um negativo (ou controle), porque o AUC é matematicamente equivalente à estatística U.

O que a AUC não é é uma medida padronizada de precisão preditiva. Eventos altamente determinísticos podem ter AUCs de preditores únicos de 95% ou mais (como mecatrônica, robótica ou óptica controlada), alguns modelos complexos de previsão de risco logístico multivariável têm AUCs de 64% ou menos, como previsão de risco de câncer de mama, e esses são níveis relativamente altos de precisão preditiva.

Um valor sensível da AUC, como em uma análise de potência, é pré-especificado, reunindo-se conhecimento dos antecedentes e objetivos de um estudo a priori . O médico / engenheiro descreve o que eles querem e você, o estatístico, decide sobre um valor de AUC alvo para o seu modelo preditivo. Então começa a investigação.

É realmente possível superajustar um modelo de regressão logística. Além da dependência linear (se a matriz do modelo é de classificação deficiente), você também pode ter perfeita concordância ou esse é o gráfico de valores ajustados contra Y que discrimina perfeitamente casos e controles. Nesse caso, seus parâmetros não convergiram, mas simplesmente residem em algum lugar no espaço limite que oferece uma probabilidade de . Às vezes, no entanto, a AUC é 1 apenas por acaso. $\infty$

Existe outro tipo de viés que surge da adição de muitos preditores ao modelo, e esse é um pequeno viés de amostra. Em geral, as razões de chances logarítmicas de um modelo de regressão logística tendem a um fator tendencioso de devido à não colapsabilidade da razão de chances e contagem zero de células. Em inferência, isso é tratado usando regressão logística condicional para controlar variáveis de confusão e precisão em análises estratificadas. No entanto, na previsão, você é SooL. Não há previsão generalizável quando você tem , ( $2\beta$ $p \gg n \pi(1-\pi)$ $\pi = \mbox{Prob}(Y=1)$ ) porque é garantido que você modelou os "dados" e não a "tendência" nesse momento. A previsão de alta dimensão ( grande ) de resultados binários é melhor realizada com métodos de aprendizado de máquina. Compreender a análise discriminante linear, mínimos quadrados parciais, previsão de vizinhos mais próximos, reforço e florestas aleatórias seria um bom ponto de partida. $p$

— AdamO
fonte

y

$y$

π

$\pi$

Como você determina o valor apropriado da AUC para o qual buscar?

— Kevin H. Lin

11

@ KevinH.Lin Depende da natureza da pergunta. Quanto mais você incorporar conhecimento contextualmente apropriado, melhor. Essa seria a prevalência ou carga subjacente de doença ou condição que o modelo avalia, desempenho dos modelos existentes (concorrentes), trade-offs de custo-efetividade e políticas em torno da adoção de novas práticas e / ou recomendações. Nada é preto e branco, mas, como muitas outras coisas, você precisa argumentar convincentemente para convencer e raciocinar a favor de um valor da AUC que você, como estatístico, pré-especifica.

— AdamO

11

@ KevinH.Lin Acho que nenhuma resposta válida será tão clara e concisa quanto a que você parece querer. É como perguntar: "Qual carro devo comprar?" :) Sugiro que você revise os artigos que exploraram as AUCs na área de pesquisa pertinente que lhe interessa. Trabalhei em grande parte em modelos de previsão de risco para câncer de mama e através dos trabalhos de Tice, Gail e Barlow, entre outros, observando que uma AUC de 0,65 é muito atraente para modelos de previsão populacional que têm uma prevalência de menos de 1 a 20 casos de incidentes. por 5.000 pessoas-anos em situação de risco, utilizando 7 fatores de risco que têm RR btn 1,5 e 3.

— Adamo

6

Em palavras simples ... um modelo de regressão logística com excesso de ajuste tem grande variação, significa que o limite da decisão muda amplamente para pequenas alterações na magnitude variável. considere a seguinte imagem como o modelo logístico mais adequado, seu limite de decisão tem um grande não. de altos e baixos, enquanto o meio está em boa forma, apresenta variação moderada e tendência moderada. o esquerdo está desajustado, tem alto viés, mas muito menos variação. mais uma coisa_ Um modelo de regressão sobreajustado tem muitos recursos, enquanto o modelo de underfit tem muito menos não. de recursos.

— user110267
fonte

8

Por favor, adicione referência para a imagem (na verdade, o curso de Andrew Ng).

— Alexander Rodin

5

Você pode se ajustar demais a qualquer método, mesmo que se ajuste a toda a população (se a população for finita). Existem duas soluções gerais para o problema: (1) estimativa de máxima verossimilhança penalizada (regressão de crista, rede elástica, laço, etc.) e (2) o uso de priores informativos com um modelo bayesiano.

$Y$ $Y$ $Y$ $Y$

— Frank Harrell
fonte

4

Existe algum modelo, deixe de lado a regressão logística, que não seja possível superajustar?

O excesso de ajuste surge fundamentalmente porque você se encaixa em uma amostra e não em toda a população. Os artefatos da sua amostra podem parecer características da população e não são, portanto, superdimensionados.

É semelhante a uma questão de validade externa. Usando apenas a amostra, você está tentando obter um modelo que ofereça o melhor desempenho na população real que você não pode ver.

Certamente, algumas formas ou procedimentos de modelos são mais propensos a superajustar do que outros, mas nenhum modelo é realmente imune a super ajuste, não é?

Mesmo a validação fora da amostra, os procedimentos de regularização, etc. podem apenas se proteger contra o excesso de ajuste, mas não há uma bala de prata. De fato, se alguém deveria estimar sua confiança em fazer uma previsão do mundo real com base em um modelo adequado, deve sempre assumir que algum grau de super adaptação foi realmente realizado.

Até que ponto pode variar, mas mesmo um modelo validado em um conjunto de dados de espera raramente produzirá um desempenho in-wild que corresponda ao que foi obtido no conjunto de dados de espera. E a super adaptação é um grande fator causal.

— curious_cat
fonte

0

O que fazemos com o Roc para verificar o excesso de ajustes é separar o conjunto de dados aleatoriamente em treinamento e avaliação e comparar a AUC entre esses grupos. Se a AUC for "muito" (também não existe uma regra geral) maior no treinamento, pode haver sobreajuste.

— María Frances Gaska
fonte