O termo de pesquisa que você procura é "curva de aprendizado", que fornece o desempenho (médio) do modelo em função do tamanho da amostra de treinamento.
As curvas de aprendizado dependem de muitas coisas, por exemplo
- método de classificação
- complexidade do classificador
- quão bem as classes são separadas.
(Eu acho que, para a LDA de duas classes, você pode derivar alguns cálculos teóricos de potência, mas o fato crucial é sempre se seus dados realmente atendem à suposição "normal igual multivariada de COV normal". Eu usaria algumas simulações para ambas as LDA suposições e reamostragem dos dados já existentes).
n
Outro aspecto que talvez você precise levar em consideração é que geralmente não é suficiente treinar um bom classificador, mas você também precisa provar que o classificador é bom (ou bom o suficiente). Portanto, você também precisa planejar o tamanho da amostra necessário para a validação com uma determinada precisão. Se você precisar fornecer esses resultados como uma fração de sucessos entre tantos casos de teste (por exemplo, precisão / precisão / sensibilidade / valor preditivo positivo do produtor ou consumidor), e a tarefa de classificação subjacente for bastante fácil, isso pode exigir casos mais independentes do que o treinamento de um bom modelo
Como regra geral, para o treinamento, o tamanho da amostra é geralmente discutido em relação à complexidade do modelo (número de casos: número de variáveis), enquanto limites absolutos no tamanho da amostra de teste podem ser dados para uma precisão necessária da medição de desempenho.
Aqui está um artigo, onde explicamos essas coisas com mais detalhes e também discutimos como construir curvas de aprendizado:
Beleites, C. e Neugebauer, U. e Bocklitz, T. e Krafft, C. e Popp, J .: Planejamento do tamanho da amostra para modelos de classificação. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceito no arXiv: 1211.1323
Este é o "teaser", mostrando um problema fácil de classificação (na verdade, temos uma distinção fácil como essa em nosso problema de classificação, mas outras classes são muito mais difíceis de distinguir):
Não tentamos extrapolar para tamanhos maiores de amostra de treinamento para determinar quanto mais casos de treinamento são necessários, porque os tamanhos das amostras de teste são nosso gargalo e tamanhos maiores de amostra de treinamento nos permitiriam construir modelos mais complexos, portanto a extrapolação é questionável. Para o tipo de conjunto de dados que eu tenho, eu abordaria isso iterativamente, medindo vários casos novos, mostrando o quanto as coisas melhoraram, medindo mais casos e assim por diante.
Isso pode ser diferente para você, mas o artigo contém referências da literatura a artigos que utilizam extrapolação para tamanhos de amostra mais altos para estimar o número necessário de amostras.