Analisei muitas vezes um conjunto de dados no qual eu realmente não poderia fazer nenhum tipo de classificação. Para ver se consigo obter um classificador, geralmente utilizei as seguintes etapas:
- Gere plotagens de caixa de etiqueta com valores numéricos.
- Reduza a dimensionalidade para 2 ou 3 para ver se as classes são separáveis, também tentei o LDA às vezes.
- Tente forçar o ajuste de SVMs e florestas aleatórias e observe a importância dos recursos para ver se os recursos fazem algum sentido ou não.
- Tente alterar o equilíbrio de classes e técnicas como subamostragem e superamostragem para verificar se o desequilíbrio de classe pode ser um problema.
Existem muitas outras abordagens em que posso pensar, mas ainda não tentei. Às vezes eu sei que esses recursos não são bons e nem estão relacionados ao rótulo que estamos tentando prever. Então, uso essa intuição comercial para encerrar o exercício, concluindo que precisamos de melhores recursos ou rótulos totalmente diferentes.
Minha pergunta é como um cientista de dados relata que a classificação não pode ser feita com esses recursos. Existe alguma maneira estatística de relatar isso ou ajustar os dados em diferentes algoritmos primeiro e analisar a métrica de validação é a melhor opção?