Estou tentando ajustar uma regressão logística em que há uma enorme diferença no número de pontos de dados em ambos os grupos (70 Vs 10.000). Um amigo estatístico meu me disse que esse é um problema conhecido com regressão logística e que, para esses tipos de números, superajusta os dados e basicamente não funciona. Quando compartilho os dados e comparo com o modelo, é bastante óbvio que esse é definitivamente o caso.
Gostaria de saber se alguém está ciente de um método melhor / mais flexível para ajustar esse tipo de dados de resposta binária?
(A propósito, eu não sou um estatístico, então vá comigo!)