Aprendizado de máquina e dados ausentes: imputação e, em caso afirmativo, quando?

Normalmente, trabalho mais no lado da estimativa de efeitos / inferência causal, onde as pessoas se sentem à vontade com a imputação múltipla de dados ausentes, mas agora estou trabalhando em um projeto que é mais do lado do aprendizado de máquina.

Esperamos ter alguns dados ausentes, porque são dados médicos do mundo real, o que invariavelmente ocorre.

A inclinação de alguns colaboradores é seguir a análise completa do tipo de caso, onde apenas os assuntos com dados completos são usados, mas isso me deixa um pouco nervoso, pois sinto que esses padrões de dados ausentes podem ter um impacto.

A "melhor prática" para tarefas de aprendizado de máquina é usar alguma forma de imputação? Nesse caso, isso deve ser feito antes da seleção do recurso?

machine-learning feature-selection missing-data

— Fomite
fonte

O maravilhoso da previsão é que você pode simplesmente descobrir o que funciona. Você só precisa de teoria se quiser saber por que algo funciona.

— generic_user

@generic_user ou para orientar suas escolhas quando há mais coisas para experimentar do que você tem recursos para = p

— user20160

A inclinação de alguns colaboradores é seguir a análise completa do tipo de caso, onde apenas os assuntos com dados completos são usados, mas isso me deixa um pouco nervoso, pois sinto que esses padrões de dados ausentes podem ter um impacto.

Eu diria que sua intuição está correta, os dados ausentes podem ter um forte poder preditivo que não deve ser descartado.

A questão é o que fazer com os dados ausentes e aqui estão duas opções (dentre muitas)

Use um algoritmo baseado em árvore de decisão que possa lidar com dados ausentes. Em particular, ele tratará os dados categóricos ausentes como uma categoria própria. Por exemplo, XGboost, Light GBM, Catboost ou qualquer outro algoritmo avançado de árvore
Para outros algoritmos que não conseguem lidar com a NAN (por exemplo, regressão logística, redes neurais etc.): use alguma forma de imputação nos dados ausentes: isso dependerá da forma e das especificidades da distribuição dos dados. A média nem sempre é a melhor ideia, e o modo ou um percentil às vezes é melhor

Se você está mais interessado em poder preditivo, sugiro o uso de algoritmos baseados em árvores que se tornaram a norma nas competições do Kaggle (com grande sucesso)

— Xavier Bourret Sicotte
fonte

Vale ressaltar que, no caso de regressão, é perfeitamente razoável criar um novo is_missingrecurso binário se você acredita que a falta pode ter poder preditivo.

— Matthew Drury