Trabalho com aprendizado de máquina e bioinformática há um tempo e hoje tive uma conversa com um colega sobre os principais problemas gerais da mineração de dados.
Meu colega (que é especialista em aprendizado de máquina) disse que, na opinião dele, o aspecto prático mais importante do aprendizado de máquina é como entender se você coletou dados suficientes para treinar seu modelo de aprendizado de máquina .
Essa afirmação me surpreendeu, porque nunca havia dado tanta importância a esse aspecto ...
Procurei mais informações na Internet e encontrei esta postagem nos relatórios do FastML.com como regra geral, de que você precisa de aproximadamente 10 vezes mais instâncias de dados do que existem recursos .
Duas questões:
1 - Esse problema é realmente particularmente relevante no aprendizado de máquina?
2 - A regra das 10 vezes está funcionando? Existem outras fontes relevantes para este tema?