Essa pergunta é geral e prolongada, mas por favor, tenha paciência comigo.
No meu aplicativo, tenho muitos conjuntos de dados, cada um consistindo em ~ 20.000 pontos de dados com ~ 50 recursos e uma única variável binária dependente. Estou tentando modelar os conjuntos de dados usando regressão logística regularizada (pacote R glmnet )
Como parte da minha análise, criei gráficos residuais da seguinte forma. Para cada recurso, classifico os pontos de dados de acordo com o valor desse recurso, divido os pontos de dados em 100 intervalos e, em seguida, calculo o valor médio da saída e o valor médio da previsão em cada intervalo. Eu traço essas diferenças.
Aqui está um exemplo de plotagem residual:
No gráfico acima, o recurso tem um intervalo de [0,1] (com uma alta concentração em 1). Como você pode ver, quando o valor do recurso é baixo, o modelo parece estar inclinado para superestimar a probabilidade de uma saída de 1. Por exemplo, no intervalo à esquerda, o modelo superestima a probabilidade em cerca de 9%.
Armado com essas informações, eu gostaria de alterar a definição do recurso de maneira direta para corrigir esse viés. Alterações como substituição
ou
Como posso fazer isso? Estou procurando uma metodologia geral para que um humano possa rolar rapidamente todas as ~ 50 parcelas e fazer alterações, e fazer isso para todos os conjuntos de dados e repetir frequentemente para manter os modelos atualizados à medida que os dados evoluem ao longo do tempo.
Como uma pergunta geral, essa é a abordagem correta? As pesquisas do Google por "análise de resíduos de regressão logística" não retornam muitos resultados com bons conselhos práticos. Eles parecem estar determinados a responder à pergunta: "Este modelo é um bom ajuste?" e oferece vários testes, como Hosmer-Lemeshow, para responder. Mas não me importo se meu modelo é bom, quero saber como melhorá-lo!