Eu realmente nunca encontrei um bom texto ou exemplos sobre como lidar com dados 'inexistentes' para entradas para qualquer tipo de classificador. Eu li muito sobre dados ausentes, mas o que pode ser feito sobre dados que não podem ou não existem em relação às entradas multivariadas. Entendo que esta é uma pergunta muito complexa e variará dependendo dos métodos de treinamento usados ...
Por exemplo, se estiver tentando prever o tempo de volta para vários corredores com bons dados precisos. Entre muitas entradas, possíveis variáveis entre muitas são:
- Variável de entrada - corredor da primeira vez (S / N)
- Variável de entrada - Tempo decorrido anterior (0 - 500 segundos)
- Variável de entrada - Idade
- Variável de entrada - Altura. . . muito mais variáveis de entrada etc
De saída e previsão - Tempo previsto de volta (0 - 500 segundos)
Uma 'variável ausente' para '2.Tempo de volta anterior' pode ser calculada de várias maneiras, mas '1. O corredor da primeira vez 'sempre seria igual a N. Mas para 'DADOS NÃO EXISTENTES' para um corredor iniciante (onde '1. Corredor iniciante' = Y) que valor / tratamento devo dar para '2. Laptime anterior '?
Por exemplo, atribuindo '2. O tempo de volta anterior 'como -99 ou 0 pode distorcer a distribuição drasticamente e parecer que um novo corredor teve um bom desempenho.
Meus métodos de treinamento atuais têm usado regressão logística, SVM, NN e árvores de decisão