Normalmente, trabalho mais no lado da estimativa de efeitos / inferência causal, onde as pessoas se sentem à vontade com a imputação múltipla de dados ausentes, mas agora estou trabalhando em um projeto que é mais do lado do aprendizado de máquina.
Esperamos ter alguns dados ausentes, porque são dados médicos do mundo real, o que invariavelmente ocorre.
A inclinação de alguns colaboradores é seguir a análise completa do tipo de caso, onde apenas os assuntos com dados completos são usados, mas isso me deixa um pouco nervoso, pois sinto que esses padrões de dados ausentes podem ter um impacto.
A "melhor prática" para tarefas de aprendizado de máquina é usar alguma forma de imputação? Nesse caso, isso deve ser feito antes da seleção do recurso?