A idéia básica é fazer uma substituição rápida dos dados ausentes e melhorar iterativamente a imputação ausente usando a proximidade. Para trabalhar com dados não rotulados, apenas replique os dados com todos os rótulos e trate-os como dados rotulados.
A fração de árvores para as quais um par de observações compartilha um nó terminal fornece a matriz de proximidade e, portanto, usa explicitamente o rótulo da classe.
Conjunto de treinamento:
- Substitua os valores ausentes pelo valor médio.
Repita até ficar satisfeito:
uma. Usando valores imputados calculados até o momento, treine uma floresta aleatória.
b. Calcule a matriz de proximidade.
c. Usando a proximidade como o peso, imputar os valores ausentes como a média ponderada dos valores não ausentes.
Conjunto de teste:
- Se houver rótulos, use a imputação derivada dos dados de teste.
- Se os dados não estiverem rotulados, replique o conjunto de testes com uma cópia para cada rótulo de classe e continue como nos dados rotulados.
Aqui, a média (ponderada) refere-se à mediana (ponderada) para variáveis numéricas e o modo (ponderado) para variáveis categóricas. 4-6 iterações são recomendadas nas referências.
Documentação R (pdf) , manual do Breiman v4.0 (pdf) , página RF do Breiman