Aplicando regressão logística com baixa taxa de eventos


15

Eu tenho um conjunto de dados no qual a taxa de eventos é muito baixa (40.000 de ). Estou aplicando regressão logística sobre isso. Eu tive uma discussão com alguém de onde saiu que a regressão logística não daria uma boa matriz de confusão em dados tão baixos de taxa de eventos. Mas, devido ao problema de negócios e à maneira como ele foi definido, não posso aumentar o número de eventos de 40.000 para um número maior, embora concorde que posso excluir alguma população que não existe.12105

Por favor, diga-me sua opinião sobre isso, especificamente:

  1. A precisão da regressão logística depende da taxa de eventos ou há alguma taxa mínima de eventos recomendada?
  2. Existe alguma técnica especial para dados com baixa taxa de eventos?
  3. Excluir minha população sem eventos seria bom para a precisão do meu modelo?

Eu sou novo na modelagem estatística, então perdoe minha ignorância e resolva quaisquer problemas associados que eu possa pensar.

Obrigado,


3
40000 / 12e5 = 3,3%, isso não parece uma taxa muito baixa para mim.
GaBorgulya

1
Obrigado ga .. caso as pessoas precisem de mais contexto para decidir a taxa de eventos baixa e alta, esses dados são do setor de seguros.
Ayush biyani

3
Você pode estar interessado em Regressão logística em Dados de eventos raros .
Bernd Weiss

Respostas:


11

Vou responder suas perguntas fora de ordem:

3 Excluir minha população sem eventos seria bom para a precisão do meu modelo?

Cada observação fornecerá algumas informações adicionais sobre o parâmetro (através da função de verossimilhança). Portanto, não há sentido em excluir dados, pois você estaria perdendo informações.

1 A precisão da regressão logística depende da taxa de eventos ou existe alguma taxa mínima de eventos recomendada?

Tecnicamente, sim: uma observação rara é muito mais informativa (ou seja, a função de probabilidade será mais acentuada). Se sua taxa de eventos for 50:50, você obterá faixas de confiança muito mais restritas (ou intervalos credíveis se estiver sendo bayesiano) para a mesma quantidade de dados . No entanto, você não pode escolher sua taxa de eventos (a menos que esteja fazendo um estudo de controle de caso), então você terá que se contentar com o que tem.

2 Existe alguma técnica especial para dados com baixa taxa de eventos?

O maior problema que pode surgir é a separação perfeita : isso acontece quando alguma combinação de variáveis ​​fornece todos os não-eventos (ou todos os eventos): nesse caso, as estimativas de parâmetros de probabilidade máxima (e seus erros padrão) se aproximam do infinito (embora geralmente o algoritmo irá parar antes). Há duas soluções possíveis:

a) removendo preditores do modelo: embora isso faça com que seu algoritmo converja, você removerá a variável com o poder mais explicativo; portanto, isso só faz sentido se o seu modelo tiver se adaptado demais (como ajustar muitas interações complicadas) .

b) use algum tipo de penalização, como uma distribuição anterior, que reduzirá as estimativas para valores mais razoáveis.


+1 Gostaria de acrescentar que vi contextos em que as pessoas ponderam novamente seus dados para 50:50. A troca parece ser uma melhoria na capacidade de classificação do modelo (supondo que um bom limiar seja escolhido) versus alguma perda de informações sobre a prevalência geral e alguma dificuldade adicional na interpretação dos coeficientes.
David J. Harris,

1
@ David: Eu também ouvi falar de pessoas que reponderam peso e usam esquemas complicados de pseudo-bootstrap, onde apenas reamostram a classe de alta frequência. Para todas essas técnicas, você acaba jogando fora (ou inventando) dados. Eu diria que, se isso melhorar seu modelo, provavelmente você está ajustando o modelo errado. Veja também meus comentários aqui: stats.stackexchange.com/questions/10356/…
Simon Byrne

1) Desculpe se eu não estava claro: eu estava falando sobre mudar a influência relativa dos eventos e dos não-eventos, como no argumento "pesos" na glmfunção de R. Na pior das hipóteses, isso é como jogar parte de cada ponto de dados com ponderação reduzida, suponho, mas não é a mesma coisa. 2) Como eu disse, existem compensações associadas a esta decisão. Provavelmente faz mais sentido em contextos em que a população que está sendo amostrada não está bem definida e a verdadeira taxa de eventos não é significativa para começar. Eu certamente não recomendaria isso de maneira geral.
David J. Harris

2

Existe uma alternativa melhor para excluir eventos não temporários para dados temporais ou espaciais: você pode agregar seus dados no tempo / espaço e modelar as contagens como Poisson. Por exemplo, se o seu evento for "erupção vulcânica acontece no dia X", em poucos dias haverá uma erupção vulcânica. No entanto, se você agrupar os dias em semanas ou meses, por exemplo, "número de erupções vulcânicas no mês X", você reduzirá o número de eventos e mais eventos terão valores diferentes de zero.


6
Devo dizer que este conselho não responde à pergunta. 1) Não há nada na pergunta que sugira que o PO esteja lidando com dados espaciais ou temporais. 2) Como se agregando a ajuda de dados para identificar quaisquer relacionamentos significativos (ele usa menos informações do que as unidades originais)!
Andy W

2
Também como observação, para que qualquer relacionamento observado ocorra em um nível agregado, ele deve estar presente no nível das unidades originais, embora um relacionamento no nível agregado não reflita necessariamente qual é o relacionamento entre as duas variáveis ​​no nível desagregado. nível. Veja qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf
Andy W

concordo com andy.
Ayush biyani
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.