A idéia de guiar o desenvolvimento de um modelo de dois estágios é o caminho certo a seguir, no entanto, é preciso considerar a dificuldade especial de sua configuração, que é a forte correlação negativa entre o valor da dívida e a probabilidade de efetuar um pagamento.
A questão principal da construção de um modelo de dois estágios aqui é que o segundo modelo (para previsão da dívida), quando construído apenas com base em "não zeros", é baseado em uma amostra não aleatória mais provável da população ( ou seja, todo o conjunto de dados), mas o modelo combinado deve ser aplicado a toda a população novamente. Isso significa que o segundo modelo terá que fazer previsões para partes dos dados nunca vistas antes, resultando em perda de precisão. Isso é chamado de Desvio de Seleção de Amostra (para uma visão geral da perspectiva do ML, recomendo Um Framework de Rede Bayesiano para Inferência de Rejeição de Smith e Elkan).
O KDD-Cup-98 tratou de uma questão semelhante, na qual se deve prever se é provável que um doador de uma organização de veteranos doe novamente e quanto é provável que doe. Nesse conjunto de dados, a probabilidade de doar novamente também estava correlacionada negativamente com a quantia esperada. O viés de seleção da amostra também apareceu.
A solução que mais me impressionou pode ser encontrada em Aprender e tomar decisões quando custos e probabilidades são desconhecidos por Bianca Zadrozny e Charles Elkan. Eles criaram uma solução sensível aos custos com base na correção de Heckman , que é do meu conhecimento a primeira abordagem sistemática para corrigir o viés de seleção (de amostra).