Versão flexível da regressão logística

8

Estou tentando ajustar uma regressão logística em que há uma enorme diferença no número de pontos de dados em ambos os grupos (70 Vs 10.000). Um amigo estatístico meu me disse que esse é um problema conhecido com regressão logística e que, para esses tipos de números, superajusta os dados e basicamente não funciona. Quando compartilho os dados e comparo com o modelo, é bastante óbvio que esse é definitivamente o caso.

Gostaria de saber se alguém está ciente de um método melhor / mais flexível para ajustar esse tipo de dados de resposta binária?

(A propósito, eu não sou um estatístico, então vá comigo!)

modeling logistic binary-data

— Stacey_bio
fonte

Por dois grupos, você quer dizer grupos definidos por sua resposta binária? Nesse caso, você deve pensar no problema da regressão logística como um problema de classificação. Para um grupo, você tem muitas informações para encontrar variáveis que predizem a categoria. Mas como o segundo grupo tem apenas 70 observações, você tem menos informações para ver o que torna o segundo grupo diferente do primeiro. Para esse tipo de problema, é o pequeno tamanho da amostra no grupo 2 que é o problema e não o desequilíbrio. Se você tivesse 700 vs 100.000, o desequilíbrio seria o mesmo, mas o problema não seria tão difícil.

— Michael R. Chernick 5/05

2

Então, acho que o problema da super adaptação é o problema clássico de usar muitos recursos com poucos dados. A única solução para o ajuste excessivo é reduzir o número de recursos ou aumentar o tamanho da amostra. Encontrar outra metodologia não ajudará.

— Michael R. Chernick 5/05

"Por dois grupos, você quer dizer grupos definidos por sua resposta binária?" - Sim!

— Stacey_bio

Alguma sugestão de onde eu poderia começar se abordar isso como um problema de classificação? Existe um método estabelecido que eu possa usar e que alguém possa estar ciente? Obrigado!

— Stacey_bio

Essencialmente, o que acho que estou procurando é um método de "classificação binária probabilística" que seja adequado para esse tipo de dados. Seria ótimo se houvesse algum tipo de método estabelecido (estatística ou de outro modo)

— Stacey_bio

4

O fato de não funcionar não vem do tamanho desequilibrado dos grupos, mas da pequenez de um dos grupos. Reduzir a amostragem para o grupo maior é bom, mas não ajuda com o ajuste excessivo. (BTW, existe uma maneira fácil e elegante de corrigir as previsões do modelo de redução de amostragem, adicionando ± log (r) aos termos lineares em que r é a taxa de redução de amostragem.)

Se realmente o problema for o excesso de ajustes, você precisará diminuir o número de variáveis ou regularizar o modelo.

— Scellus
fonte

4

Esse problema aparece em praticamente todas as abordagens de classificação, seja regressão logística, classificação de vetores de suporte ou classificação de Naive Bayes. Existem dois problemas entrelaçados:

Um modelo treinado em um conjunto de dados desequilibrado pode se ajustar demais no sentido de adquirir um viés em favor da classe majoritária.
Ao avaliar esse modelo em um conjunto de dados de teste com o mesmo grau de desequilíbrio, a precisão da classificação pode ser uma medida de desempenho extremamente enganosa.

A literatura sobre essas questões apresentou três estratégias de solução:

Você pode restaurar o equilíbrio no treinamento definido subamostra a classe grande ou sobreamostrando a classe pequena, para evitar que ocorram preconceitos em primeiro lugar (consulte a resposta em @grotos).
Como alternativa, você pode modificar os custos de classificação incorreta para impedir que o modelo adquira uma polarização em primeiro lugar.
Uma salvaguarda adicional é substituir a precisão pela chamada precisão equilibrada . É definida como a média aritmética das precisões específicas da classe, onde e representam a precisão obtida em exemplos positivos e negativos, respectivamente. Se o classificador tiver um desempenho igualmente bom em qualquer uma das classes, esse termo reduzirá à precisão convencional (ou seja, o número de previsões corretas dividido pelo número total de previsões). Por outro lado, se a precisão convencional estiver acima do acaso, apenas $\phi := \frac{1}{2}\left(\pi^+ + \pi^-\right),$ $\pi^+$ $\pi^-$ como o classificador tira proveito de um conjunto de testes desequilibrado, a precisão balanceada, conforme apropriado, cai para o acaso (veja o esboço abaixo, que tirei da minha resposta a uma pergunta relacionada ).

Precisão vs. precisão equilibrada

Conforme detalhado na minha resposta anterior, eu recomendaria considerar pelo menos duas das abordagens acima em conjunto. Por exemplo, você pode exagerar sua classe minoritária para impedir que seu classificador adquira um viés a favor da classe majoritária. Depois disso, ao avaliar o desempenho do seu classificador, você pode substituir a precisão pela precisão equilibrada.

— Kay Brodersen
fonte

0

Você quer dizer a distribuição da resposta, ou seja, você tem 70 casos de "SIM" e 10000 de "NÃO"?

Nesse caso, esse é um problema comum em aplicativos de mineração de dados. Imagine um banco de dados com 1.000.000 de instâncias, onde apenas cerca de 1.000 casos são "SIM". A taxa de resposta de 1% e menos ainda é comum em uma modelagem preditiva de negócios. E se você escolher uma amostra para treinar um modelo, isso é um grande problema, especialmente com a avaliação da estabilidade de um modelo.

O que fazemos é escolher uma amostra com diferentes proporções. No exemplo mencionado, seriam 1000 casos de "SIM" e, por exemplo, 9000 de casos "NÃO". Essa abordagem fornece modelos mais estáveis. No entanto, ele deve ser testado em uma amostra real (com 1.000.000 de linhas).

Eu testei com modelos de mineração de dados, como regressão logística, árvores de decisão, etc. No entanto, não o usei com modelos estatísticos "adequados" [1].

Você pode pesquisá-lo como "superamostragem nas estatísticas", o primeiro resultado é muito bom: http://www.statssa.gov.za/isi2009/ScientificProgramme/IPMS/1621.pdf

[1] "adequado" no sentido de "não mineração de dados".

— grotos
fonte

0

Se você deseja uma técnica de classificação insensível à proporção relativa de exemplos de diferentes classes, as Máquinas de Vetor de Suporte têm essa propriedade, assim como as árvores de decisão.

— fgregg
fonte