Redes backprop totalmente conectadas (pelo menos camada a camada com mais de 2 camadas ocultas) são aprendizes universais. Infelizmente, muitas vezes demoram a aprender e tendem a se ajustar demais ou a ter generalizações desajeitadas.
Ao brincar com essas redes, observei que a remoção de algumas das bordas (para que seu peso seja zero e impossível de mudar) tende a fazer com que as redes aprendam mais rápido e generalizem melhor. Existe uma razão para isso? É apenas devido a uma diminuição na dimensionalidade do espaço de busca de pesos, ou existe uma razão mais sutil?
Além disso, a melhor generalização é um artefato dos problemas "naturais" que estou vendo?