Eu tenho um grande conjunto de vetores de recursos que utilizarei para atacar um problema de classificação binária (usando o scikit learn em Python). Antes de começar a pensar em imputação, estou interessado em tentar determinar a partir das partes restantes dos dados se os dados ausentes estão "ausentes aleatoriamente" ou ausentes não aleatoriamente.
Qual é uma maneira sensata de abordar essa questão?
Acontece que uma pergunta melhor é perguntar se os dados estão "faltando completamente ao acaso" ou não. Qual é uma maneira sensata de fazer isso?