Existe uma regra prática antiga para estatísticas multivariadas que recomenda um mínimo de 10 casos para cada variável independente. Mas geralmente é onde há um parâmetro para cada variável.
Por que estou perguntando: estou trabalhando em um exemplo de livro didático que usa 500 casos de treinamento (de 25.000 no conjunto de dados) com 15 variáveis preditoras e uma camada oculta com 8 nós ocultos. Então, estamos estimando 153 pesos. Dos 500 casos, existem 129 1 e o resto 0. portanto, há mais pesos do que casos positivos a serem previstos. Isso parece errado. O modelo resultante é super ajustado (mas a validação não é abordada neste problema do livro).
Então, o que é um guia para o mínimo? 10 vezes variáveis de entrada? 10 vezes parâmetros para estimar? Algo mais?
Existem respostas relacionadas, mas elas parecem se referir mais ao tamanho de amostra desejável do que o mínimo, por exemplo, como obter o tamanho do conjunto de dados necessário para o treinamento da rede neural?
Tamanho do lote de troca versus número de iterações para treinar uma rede neural
ou não tem resposta Tamanho mínimo da amostra de treinamento necessário para um classificador
Mas é claro que posso ter perdido uma boa resposta anterior.
number of parameters squared
amostras