Melhor maneira de combinar resposta binária e contínua

Estou tentando encontrar a melhor maneira de prever o valor do pagamento para uma agência de cobrança. A variável dependente é diferente de zero quando um pagamento foi feito. Compreensivelmente, há um número esmagador de zeros porque a maioria das pessoas não pode ser alcançada ou não pode pagar a dívida.

Há também uma correlação negativa muito forte entre o valor da dívida e a probabilidade de efetuar um pagamento. Normalmente, eu criaria um modelo logístico para prever a probabilidade de pagamento / não pagamento, mas isso tem a conseqüência infeliz de encontrar pessoas com os saldos mais baixos.

Existe uma maneira de combinar um modelo logístico de pagamento / não pagamento com um modelo separado que preveja o valor do pagamento?

regression predictive-models logistic

— Zelazny7
fonte

Há uma regressão log-normal com inflação zero, que parece atender às suas necessidades. Veja este documento

— Peter Flom - Reinstate Monica

@ PeterFlom, como você acha que isso se compara à discussão de gui11aume e steffen sobre um modelo de dois estágios e um viés de seleção de amostras?

— As3adTintin

Eu acho que ambos podem ser úteis. Houve discussões comparando as duas, mas eu esqueço onde as li.

— Peter Flom - Restabelece Monica

O que eu acabei fazendo estava criando uma rede neural com um ativação Relu para a saída e perda logarítmica quadrático médio

— Zelazny7

ok obrigado. a ativação da rede neural / relu soa além do meu conhecimento atual, mas continuarei analisando isso. obrigado por fazer a pergunta original e pelos comentários!

— precisa saber é o seguinte

Respostas:

A idéia de guiar o desenvolvimento de um modelo de dois estágios é o caminho certo a seguir, no entanto, é preciso considerar a dificuldade especial de sua configuração, que é a forte correlação negativa entre o valor da dívida e a probabilidade de efetuar um pagamento.

A questão principal da construção de um modelo de dois estágios aqui é que o segundo modelo (para previsão da dívida), quando construído apenas com base em "não zeros", é baseado em uma amostra não aleatória mais provável da população ( ou seja, todo o conjunto de dados), mas o modelo combinado deve ser aplicado a toda a população novamente. Isso significa que o segundo modelo terá que fazer previsões para partes dos dados nunca vistas antes, resultando em perda de precisão. Isso é chamado de Desvio de Seleção de Amostra (para uma visão geral da perspectiva do ML, recomendo Um Framework de Rede Bayesiano para Inferência de Rejeição de Smith e Elkan).

O KDD-Cup-98 tratou de uma questão semelhante, na qual se deve prever se é provável que um doador de uma organização de veteranos doe novamente e quanto é provável que doe. Nesse conjunto de dados, a probabilidade de doar novamente também estava correlacionada negativamente com a quantia esperada. O viés de seleção da amostra também apareceu.

A solução que mais me impressionou pode ser encontrada em Aprender e tomar decisões quando custos e probabilidades são desconhecidos por Bianca Zadrozny e Charles Elkan. Eles criaram uma solução sensível aos custos com base na correção de Heckman , que é do meu conhecimento a primeira abordagem sistemática para corrigir o viés de seleção (de amostra).

— Steffen
fonte

+1 O seu segundo parágrafo destaca muito bem algo que está faltando na minha resposta.

— gui11aume

Como isso se compara à sugestão de Peter Flom de uma regressão log-normal inflada a zero?

— As3adTintin

Essa é uma pergunta muito legal (+1).

Por que não tratar os 0s como se fossem NAs?

Você pode adicionar uma resposta simulada indicando se algum dinheiro foi recuperado ( ou seja, igual a 0 quando o valor for 0 e 1 quando o valor for positivo) e ajustar um modelo logístico nessa resposta binária com os mesmos preditores. Você ajustaria dois modelos: a resposta binária usando todos os pontos de dados e a resposta contínua usando apenas os pontos de dados não zeron (de acordo com a idéia de tratar 0 como NA).

Você ainda pode testar a nulidade dos parâmetros em cada modelo e calcular o ganho esperado usando os dois conjuntos de parâmetros.

— gui11aume
fonte

Obrigado pela sugestão. Antes da minha pergunta, eu criei duas variáveis dependentes e conjuntos de dados semelhantes ao que você descreve. Você pode elaborar o que você quer dizer com "Ainda é a nulidade dos paramentadores"? Obrigado!

— Zelazny7

"Ainda a nulidade dos parâmetros" foi um erro de digitação que corrigi no texto. Desculpe por isso :-)

— gui11aume