Suponha que eu queira aprender um classificador que use um vetor de números como entrada e dê um rótulo de classe como saída. Meus dados de treinamento consistem em um grande número de pares de entrada e saída.
No entanto, quando chego ao teste de alguns dados novos, esses dados geralmente são apenas parcialmente completos. Por exemplo, se o vetor de entrada tiver comprimento 100, apenas 30 dos elementos poderão receber valores e o restante será "desconhecido".
Como exemplo disso, considere o reconhecimento de imagem onde se sabe que parte da imagem está ocluída. Ou considere a classificação em um sentido geral, onde se sabe que parte dos dados está corrompida. Em todos os casos, eu sei exatamente quais elementos no vetor de dados são as partes desconhecidas.
Gostaria de saber como posso aprender um classificador que funcionaria para esse tipo de dados? Eu poderia apenas definir os elementos "desconhecidos" para um número aleatório, mas, como geralmente existem mais elementos desconhecidos do que os conhecidos, isso não parece uma boa solução. Ou, eu poderia alterar aleatoriamente elementos nos dados de treinamento para "desconhecido" e treinar com eles em vez dos dados completos, mas isso pode exigir uma amostragem exaustiva de todas as combinações de elementos conhecidos e desconhecidos.
Em particular, estou pensando em redes neurais, mas estou aberto a outros classificadores.
Alguma ideia? Obrigado!