Aqui está o acordo:
Tecnicamente, você escreveu frases verdadeiras (ambos os modelos podem aproximar-se de qualquer função "não muito louca", com parâmetros suficientes), mas essas frases não o levam a lugar algum!
Por que é que? Bem, olhe mais de perto a teoria da aproximação universal ou qualquer outra prova formal de que uma rede neural possa calcular qualquer f (x) se houver neurônios suficientes.
Todos esses tipos de provas que eu vi usam apenas uma camada oculta.
Dê uma olhada rápida aqui http://neuralnetworksanddeeplearning.com/chap5.html para alguma intuição. Existem trabalhos mostrando que, em certo sentido, o número de neurônios necessários cresce exponencialmente se você estiver usando apenas uma camada.
Então, enquanto na teoria você está certo, na prática, você não tem uma quantidade infinita de memória, então você realmente não quer treinar uma rede de 2 ^ 1000 neurônios, não é? Mesmo que você tenha uma quantidade infinita de memória, essa rede será superestimada, com certeza.
Na minha opinião, o ponto mais importante da ML é o ponto prático! Vamos expandir um pouco nisso. O grande problema aqui não é apenas como os polinômios aumentam / diminuem muito rapidamente fora do conjunto de treinamento. De modo nenhum. Como um exemplo rápido, o pixel de qualquer imagem está dentro de um intervalo muito específico ([0,255] para cada cor RGB). Assim, você pode ter certeza de que qualquer nova amostra estará dentro do intervalo de valores do conjunto de treinamento. Não. O grande problema é: essa comparação não é útil para começar (!).
Sugiro que você experimente um pouco com o MNIST e tente ver os resultados reais que pode obter usando apenas uma única camada.
As redes práticas usam muito mais do que uma camada oculta, às vezes dezenas (bem, redefina a rede ainda mais ...) de camadas. Por uma razão. Essa razão não está comprovada e, em geral, a escolha de uma arquitetura para uma rede neural é uma área importante de pesquisa. Em outras palavras, embora ainda precisemos saber mais, os dois modelos que você comparou (regressão linear e NN com apenas uma camada oculta), para muitos conjuntos de dados, não são de todo úteis!
A propósito, no caso de você entrar no ML, existe outro teorema inútil que é realmente uma 'área de pesquisa' atual - dimensão PAC (provavelmente aproximadamente correta) / VC. Vou expandir isso como um bônus:
Se a aproximação universal afirma basicamente que, dada uma quantidade infinita de neurônios, podemos aproximar qualquer função (muito obrigado?), O que o PAC diz em termos práticos é que, dada (praticamente!) Uma quantidade infinita de exemplos rotulados, podemos chegar o mais perto possível queremos a melhor hipótese dentro do nosso modelo. Foi absolutamente hilário quando calculei a quantidade real de exemplos necessários para que uma rede prática estivesse dentro de uma taxa de erro prática desejada e com alguma probabilidade aceitável :) Era mais do que o número de elétrons no universo. O PS para aumentá-lo também pressupõe que as amostras sejam IID (isso nunca é verdade!).