Eu não entendo a pergunta completamente. Geralmente uma amostra maior produzirá (por exemplo) uma melhor classificação. A menos que maior signifique observações de má qualidade. Uma pequena amostra tornará muitos modelos inúteis. Por exemplo, como os modelos baseados em árvore são uma espécie de abordagem de "divisão e conquista", sua eficiência depende muito do tamanho da amostra de treinamento.
Por outro lado, se você está interessado em aprender estatística em grandes dimensões, acho que sua preocupação tem mais a ver com a maldição da dimensionalidade. Se o tamanho da amostra for "pequeno" e o espaço de recursos for de uma dimensão "alta", seus dados se comportarão como se fossem escassos e a maioria dos algoritmos passará um tempo terrível tentando entendê-los. Citando John A. Richards em Análise de Imagem Digital de Sensoriamento Remoto:
Redução e Separabilidade de Recursos
O custo da classificação aumenta com o número de recursos usados para descrever vetores de pixel no espaço multiespectral - isto é, com o número de bandas espectrais associadas a um pixel. Para classificadores como os procedimentos de distância mínima e paralelepípedo, esse é um aumento linear com os recursos; no entanto, para a classificação de máxima verossimilhança, o procedimento mais frequentemente preferido, o aumento de custo com recursos é quadrático. Portanto, é sensato economicamente garantir que não sejam utilizados mais recursos do que o necessário ao executar uma classificação. A Seção 8.2.6 chama a atenção para o número de pixels de treinamento necessários para garantir que estimativas confiáveis de signatários de classe possam ser obtidas. Em particular, o número de pixels de treinamento necessários aumenta com o número de bandas ou canais nos dados. Para dados de alta dimensionalidade, como o dos espectrômetros de imagem, esse requisito apresenta um grande desafio na prática; portanto, é importante manter o número de recursos usados em uma classificação o mínimo possível, para que sejam esperados resultados confiáveis a partir de números acessíveis de pixels de treinamento. Características que não ajudam na discriminação, contribuindo pouco para a separabilidade de classes espectrais, devem ser descartadas. A remoção de recursos menos eficazes é chamada de seleção de recursos, sendo esta uma forma de redução de recursos. A outra é transformar o vetor de pixel em um novo conjunto de coordenadas, no qual os recursos que podem ser removidos ficam mais evidentes. Ambos os procedimentos são considerados com alguns detalhes neste capítulo. portanto, é importante manter o número de recursos usados em uma classificação o mínimo possível, para que sejam esperados resultados confiáveis a partir de números acessíveis de pixels de treinamento. Características que não ajudam na discriminação, contribuindo pouco para a separabilidade de classes espectrais, devem ser descartadas. A remoção de recursos menos eficazes é chamada de seleção de recursos, sendo esta uma forma de redução de recursos. A outra é transformar o vetor de pixel em um novo conjunto de coordenadas, no qual os recursos que podem ser removidos ficam mais evidentes. Ambos os procedimentos são considerados com alguns detalhes neste capítulo. portanto, é importante manter o número de recursos usados em uma classificação o mínimo possível, para que sejam esperados resultados confiáveis a partir de números acessíveis de pixels de treinamento. Características que não ajudam na discriminação, contribuindo pouco para a separabilidade de classes espectrais, devem ser descartadas. A remoção de recursos menos eficazes é chamada de seleção de recursos, sendo esta uma forma de redução de recursos. A outra é transformar o vetor de pixel em um novo conjunto de coordenadas, no qual os recursos que podem ser removidos ficam mais evidentes. Ambos os procedimentos são considerados com alguns detalhes neste capítulo. deve ser descartado. A remoção de recursos menos eficazes é chamada de seleção de recursos, sendo esta uma forma de redução de recursos. A outra é transformar o vetor de pixel em um novo conjunto de coordenadas, no qual os recursos que podem ser removidos ficam mais evidentes. Ambos os procedimentos são considerados com alguns detalhes neste capítulo. deve ser descartado. A remoção de recursos menos eficazes é chamada de seleção de recursos, sendo esta uma forma de redução de recursos. A outra é transformar o vetor de pixel em um novo conjunto de coordenadas, no qual os recursos que podem ser removidos ficam mais evidentes. Ambos os procedimentos são considerados com alguns detalhes neste capítulo.
O que significa que o problema é duplo, encontrando recursos relevantes e o tamanho do samp que você mencionou. A partir de agora, você pode baixar o livro gratuitamente, se o pesquisar no google.
Outra maneira de ler sua pergunta que me interessa particularmente seria a seguinte: no aprendizado supervisionado, você só pode realmente validar seus modelos nos dados de teste por validação cruzada e quais não. Se a amostra rotulada da qual você obteve suas amostras de trem / teste não representa bem o seu universo, os resultados da validação podem não se aplicar ao seu universo. Como você pode medir a representatividade da sua amostra rotulada?