Acho que o mais importante é que as amostras nos seus dados estejam bem espalhadas, porque, não importa quantos dados você tenha, mais dados sempre serão melhores. Afinal, se você tentar aprender a distinguir entre fotos de gatos e cães, não poderá esperar que seu modelo tenha um bom desempenho se você apenas alimentar imagens de gatos.
Conforme sugerido na resposta de Kevin L , faz sentido considerar a diferença entre erro de treinamento e erro de teste. Se seus dados de teste são independentes dos dados de treinamento, isso indica como o modelo é generalizado para os dados indisponíveis. Algo que eu gostaria de acrescentar é o fato de que uma grande diferença entre erro de treinamento e teste diz apenas que seu modelo não se generaliza bem, ou seja, você está se ajustando demais aos dados de treinamento. Mais dados provavelmente ajudarão, porque agora a rede também precisa modelar os pontos de dados extras e, portanto, não pode superestimar tanto. No entanto, pode ser mais interessante alterar seu modelo para que ele se generalize melhor. Este capítulo de um excelente livro explica que tipos de regularização existem e como eles podem ser aplicados em redes para obter uma melhor generalização.
Se você estava procurando uma medida mais quantitativa, encontrei recentemente essa pergunta no quora. É sobre um codificador automático, mas acho que também deve ser aplicável ao seu exemplo. Não tenho idéia se isso está correto (por favor, avise-me), mas eu argumentaria que, por exemplo, para o MNIST, alguém poderia argumentar que você tenta reduzir imagens com um máximo de 28 * 28 * 8 * 10 000 = 62 720 000 entropia de bits para dez classes na codificação one-hot com 10 * 10 * 10 000 = 1 000 000 bits de entropia. Como estamos interessados apenas nos 1.000.000 de bits de entropia na saída, podemos dizer que, com 1.000.000 de parâmetros, cada parâmetro representa um único bit, que é 1e-4 bits por amostra. Isso significa que você precisaria de mais dados. Ou você tem muitos parâmetros, porque, por exemplo, com 100 parâmetros, você tem 10 000 bits por parâmetro e, portanto, 1 bit por amostra. Contudo,