Os modelos de aprendizado profundo estão acima da capacidade necessária para as entropias estimadas de seus conjuntos de dados?

essa pergunta pode parecer um pouco estranha. Eu estava fazendo alguns auto-estudos sobre teoria da informação e decidi fazer algumas investigações mais formais sobre aprendizado profundo. Por favor, tenha paciência comigo enquanto tento explicar. Tomei um grande subconjunto de "treinamento" do MNIST como minha cobaia.

1) Converteu todas as imagens no MNIST em "preto e branco" (os valores de pixels são apenas 0 ou 1)

2) Somadas todas as imagens de dados para criar um histograma sobre os pixels - contei o número de vezes que cada pixel obtém um valor 1 no conjunto de dados

3) Histograma normalizado para obter uma estimativa da distribuição de probabilidade "verdadeira"

4) A partir disso, obtive a seguinte distribuição de probabilidade (mostrada como um mapa de calor com matplotlib):

[ Distribuição de probabilidade para um conjunto de treinamento MNIST [1]

5) Agora calculei a entropia e obtive: bits $191$

6) De acordo com David MacKay em seu livro de teoria da informação, poderíamos interpretar uma rede neural como um canal barulhento e considerar cada neurônio como tendo uma capacidade de 2 bits. Embora ele declare usar essa idéia com cuidado. Capítulo 40 de seu livro http://www.inference.org.uk/itila/book.html )

7) Portanto, como uma estimativa aproximada (e com cuidado), poderíamos dizer que precisaríamos de uma rede neural de 95 neurônios para poder codificar a marcação deste conjunto de treinamento MNIST (190/2). 8) Agora podemos obter à minha pergunta:

Mesmo que esse seja um cálculo muito "de volta ao envelope", não deveria uma rede neural capaz de aprender a rotular pelo menos no estádio de 95 neurônios? Por que precisamos, por exemplo, de uma rede neural com 21840 parâmetros para obter 99% de precisão? (considerando o exemplo do PyTorch para o MNIST: https://github.com/pytorch/examples/blob/master/mnist/main.py )

neural-network deep-learning information-theory

— Paulo A. Ferreira
fonte

O pensamento atual é que é mais fácil ajustar uma rede neural super-parametrizada, já que os extremos locais são maneiras diferentes de expressar a mesma coisa, enquanto que em uma rede neural mínima você precisa se preocupar em chegar ao extremo global:

A razão sutil por trás disso é que redes menores são mais difíceis de treinar com métodos locais, como o Gradient Descent: É claro que suas funções de perda têm relativamente poucos mínimos locais, mas acontece que muitos desses mínimos são mais fáceis de convergir e que eles são ruins (ou seja, com alta perda). Por outro lado, redes neurais maiores contêm mínimos significativamente mais locais, mas esses mínimos acabam sendo muito melhores em termos de perda real. Como as redes neurais não são convexas, é difícil estudar essas propriedades matematicamente, mas algumas tentativas de entender essas funções objetivas foram feitas, por exemplo, em um artigo recente As superfícies de perda de redes multicamadas. Na prática, o que você descobre é que, se você treina uma rede pequena, a perda final pode exibir uma boa variação - em alguns casos, você tem sorte e converge para um bom lugar, mas, em alguns casos, fica preso em um dos mínimos ruins. Por outro lado, se você treinar uma rede grande, começará a encontrar muitas soluções diferentes, mas a variação na perda final alcançada será muito menor. Em outras palavras, todas as soluções são igualmente boas e dependem menos da sorte da inicialização aleatória.

CS231n Redes neurais convolucionais para reconhecimento visual

— Emre
fonte

Obrigado pela sua resposta, Emre. Você conhece algum estudo que relacione a entropia de conjuntos de dados à rede necessária para obter uma determinada precisão? Estou imaginando aqui um gráfico, em que X é entropia de um conjunto de dados e Y é o tamanho em bits da rede mínima encontrada até o momento que atinge 99% de precisão.

— Paulo A. Ferreira

Não exatamente, mas o método de gargalo de informações de Tishby e os acompanhamentos, como A teoria do gargalo de informações da aprendizagem profunda, se aproximam bastante e são bastante interessantes. Também existem inúmeros trabalhos sobre compressão de redes neurais, mas os que consigo pensar são empíricos, e não teóricos, como o mencionado acima.

— Emre