Tamanho mínimo de treinamento para rede neural simples

7

Existe uma regra prática antiga para estatísticas multivariadas que recomenda um mínimo de 10 casos para cada variável independente. Mas geralmente é onde há um parâmetro para cada variável.

Por que estou perguntando: estou trabalhando em um exemplo de livro didático que usa 500 casos de treinamento (de 25.000 no conjunto de dados) com 15 variáveis preditoras e uma camada oculta com 8 nós ocultos. Então, estamos estimando 153 pesos. Dos 500 casos, existem 129 1 e o resto 0. portanto, há mais pesos do que casos positivos a serem previstos. Isso parece errado. O modelo resultante é super ajustado (mas a validação não é abordada neste problema do livro).

Então, o que é um guia para o mínimo? 10 vezes variáveis de entrada? 10 vezes parâmetros para estimar? Algo mais?

Existem respostas relacionadas, mas elas parecem se referir mais ao tamanho de amostra desejável do que o mínimo, por exemplo, como obter o tamanho do conjunto de dados necessário para o treinamento da rede neural?

Tamanho do lote de troca versus número de iterações para treinar uma rede neural

ou não tem resposta Tamanho mínimo da amostra de treinamento necessário para um classificador

Mas é claro que posso ter perdido uma boa resposta anterior.

self-study neural-networks

— Mike Kruger
fonte

11

Essa é uma pergunta interessante que tem alguns meses. Se você encontrou respostas claras para sua pergunta, considere respondê-la.

— NULL

Uma estimativa emprical para o número mínimo de amostras de entrada entre os pesquisadores da NN é que precisaríamos de pelo menos number of parameters squaredamostras

— NULL

Ainda não encontrei uma resposta clara.

— Zbicyclist

4

Isso é impossível de responder em geral. Se você estiver trabalhando em um problema com recursos fortemente preditivos, sua tarefa será mais fácil - amostras menores irão estimar um modelo de alto desempenho. Mas um problema com apenas características pouco relevantes dificilmente encontrará sinal.

Em extremos , se todos os seus recursos forem puro ruído, nenhuma rede generalizará bem, mesmo se você tiver volumes arbitrariamente grandes de dados.

Regularização inteligente e seleção de recursos podem ajudar. E se a regularização e a seleção de recursos podem alterar o número de parâmetros necessários para estimar uma rede com um nível específico de desempenho, essa pergunta parece ainda mais complicada do que uma simples diretriz.

— Sycorax diz restabelecer Monica
fonte

1

Então, o que é um guia para o mínimo? 10 vezes variáveis de entrada? 10 vezes parâmetros para estimar?

Li conselhos estatísticos clássicos para usar o número de amostras pelo menos 10 vezes mais que o número de parâmetros. Isso é vago, é claro. Se o problema for muito barulhento, você poderá exigir 100 vezes mais ou 1000 vezes mais.

Conforme mencionado pelo @Sycorax, não há uma resposta clara e concisa, mas você pode pelo menos ter em mente que ter um número de amostras igual ao número de parâmetros permitirá desenhar um hiperplano (no seu caso) que divida perfeitamente suas classes.

Dê uma olhada no conceito de dimensão Vapnik-Chervonenkis que pode ajudar a articular o problema de maneira mais formal: dimensão VC

— Alexey Burnakov
fonte