O que é "inferir rejeição" e como pode ser usado para aumentar a precisão de um modelo?


10

Alguém pode explicar em detalhes:

  1. O que significa rejeitar inferências?
  2. Como ele pode ser usado para aumentar a precisão do meu modelo?

Eu tenho a idéia de rejeitar inferências no aplicativo de cartão de crédito, mas lutando com o pensamento de usá-lo para aumentar a precisão do meu modelo.

Respostas:


23

Na construção do modelo de crédito, a dedução de rejeição é o processo de inferir o desempenho das contas de crédito que foram rejeitadas no processo de inscrição.

Quando a construção de um modelo de risco de crédito aplicação, queremos construir um modelo que tem " through-the-door aplicabilidade", ou seja, nós entrada de todos os dados de aplicativos para o modelo de risco de crédito, e o modelo gera uma classificação de risco ou uma probabilidade do padrão. O problema ao usar a regressão para criar um modelo a partir de dados passados ​​é que conhecemos o desempenho da conta apenas para aplicativos aceitos no passado. No entanto, não sabemos o desempenho dos rejeitados, porque, após a aplicação, os enviamos de volta pela porta. Isso pode resultar em viés de seleção em nosso modelo, porque, se usarmos apenas "aceita" no passado, o modelo poderá não ter um bom desempenho na população "através da porta".

Existem muitas maneiras de lidar com a inferência de rejeição, todas elas controversas. Vou mencionar dois simples aqui.

  • "Definir rejeições passadas como ruins"
  • Parceling

"Definir rejeições passadas como ruins" é simplesmente pegar todos os dados de aplicativos rejeitados e, em vez de descartá-los ao criar o modelo, atribua todos eles como ruins. Esse método influencia fortemente o modelo em relação à política de aceitação / rejeição do passado.

"Parcelar" é um pouco mais sofisticado. Isso consiste de

  1. Construa o modelo de regressão com o passado "aceita"
  2. Aplique o modelo às rejeições anteriores para atribuir classificações de risco a elas
  3. Usando a probabilidade esperada de inadimplência para cada classificação de risco, atribua os aplicativos rejeitados a serem bons ou ruins. Por exemplo, se a classificação de risco tiver uma probabilidade de inadimplência de 10% e houver 100 aplicativos rejeitados que se enquadram nessa classificação de risco, atribua 10 das rejeições como "ruins" e 90 das rejeições como "boas".
  4. Reconstrua o modelo de regressão usando os aplicativos aceitos e agora o desempenho inferido dos aplicativos rejeitados

Existem diferentes maneiras de executar as atribuições como boas ou ruins na etapa 3, e esse processo também pode ser aplicado iterativamente.

Como afirmado anteriormente, o uso de inferências por rejeição é controverso e é difícil dar uma resposta direta sobre como pode ser usada para aumentar a precisão dos modelos. Vou simplesmente citar alguns outros sobre esse assunto.

Jonathan Crook e John Banasik, rejeitar a inferência realmente melhora o desempenho dos modelos de pontuação de aplicativos?

Primeiro, mesmo quando uma proporção muito grande de candidatos é rejeitada, o escopo de melhoria de um modelo parametrizado apenas para os aceitos parece modesto. Onde a taxa de rejeição não é tão grande, esse escopo parece ser realmente muito pequeno.

David Hand, "Inferência direta em operações de crédito", publicado no Handbook of Credit Scoring, 2001

Vários métodos foram propostos e são utilizados e, embora alguns sejam claramente ruins e nunca devam ser recomendados, não existe o melhor método único de aplicabilidade universal, a menos que informações adicionais sejam obtidas. Ou seja, a melhor solução é obter mais informações (talvez concedendo empréstimos a alguns possíveis rejeitados) sobre os candidatos que se enquadram na região de rejeitos.


11
+1 para uma visão geral abrangente. Agora eu sei também que rejeitar inferência é :)
mpiktas

11
obrigado. mas como você atribui na etapa 3? Eu li que instad de usar 1 ou 0, você pode usar a probabilidade para cada linha. Então você terá a mesma pessoa com 10% e 90%. Como isso pode funcionar com uma nova criação de modelo logístico?
GabyLP

1

@GabyLP nos comentários anteriores. Com base na minha experiência, você pode dividir esses clientes em duas partes e atribuir pesos para as duas divisões de acordo com a probabilidade. Por exemplo, se um cliente rejeitado tiver 10% de PD, você poderá criar dois clientes desse. Primeiro tendo variável alvo 1 e peso 0,1 e segundo tendo variável alvo 0 e peso 0,9.

Toda a amostra aceita de clientes terá pesos == 1.

Enquanto isso funciona com regressão logística, não funciona com modelos baseados em árvore.


Você tem uma fonte para sua declaração?
T. bege

Se a pergunta é sobre o fato de não funcionar em modelos baseados em árvore, minha resposta é - experiência pessoal. Eu tentei implementar essa abordagem, mas não consegui.
precisa saber é
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.