Estou tentando desenvolver um modelo preditivo usando dados clínicos de alta dimensão, incluindo valores laboratoriais. O espaço de dados é escasso com amostras de 5k e 200 variáveis. A idéia é classificar as variáveis usando um método de seleção de recursos (IG, RF etc.) e usar recursos de alta classificação para desenvolver um modelo preditivo.
Embora a seleção de recursos esteja indo bem com a abordagem Naïve Bayes, agora estou enfrentando um problema na implementação de um modelo preditivo devido à falta de dados (NA) no meu espaço variável. Existe algum algoritmo de aprendizado de máquina que possa manipular cuidadosamente amostras com dados ausentes?