Estou trabalhando em um projeto de Machine Learning com dados que já são (fortemente) influenciados pela seleção de dados.
Vamos supor que você tenha um conjunto de regras codificadas. Como você cria um modelo de aprendizado de máquina para substituí-lo, quando todos os dados que ele pode usar são dados que já foram filtrados por essas regras?
Para esclarecer as coisas, acho que o melhor exemplo seria a avaliação de risco de crédito : a tarefa é filtrar todos os clientes que provavelmente falharão no pagamento.
- Agora, os únicos dados (rotulados) que você possui são de clientes que foram aceitos pelo conjunto de regras, porque somente após a aceitação você verá se alguém paga ou não (obviamente). Você não sabe o quão bom é o conjunto de regras e o quanto elas afetam a distribuição paga a não paga. Além disso, você tem dados não rotulados dos clientes que foram recusados, novamente devido ao conjunto de regras. Portanto, você não sabe o que teria acontecido com esses clientes se eles tivessem sido aceitos.
Por exemplo, uma das regras poderia ser: "Se a idade do cliente for <18 anos, não aceite"
O classificador não tem como aprender a lidar com clientes que foram filtrados por essas regras. Como o classificador deve aprender o padrão aqui?
Ignorar esse problema, levaria o modelo a ser exposto a dados nunca antes encontrados. Basicamente, quero estimar o valor de f (x) quando x estiver fora de [a, b] aqui.