A maneira mais simples de explicar é que a regularização ajuda a não se ajustar ao ruído, e não faz muito em termos de determinar a forma do sinal. Se você pensa no aprendizado profundo como um aproximador gigante de funções gloriosas, percebe que ele precisa de muitos dados para definir a forma do sinal complexo.
Se não houvesse ruído, o aumento da complexidade da NN produziria uma melhor aproximação. Não haveria nenhuma penalidade no tamanho do NN, maior teria sido melhor em todos os casos. Considere uma aproximação de Taylor, mais termos são sempre melhores para a função não polinomial (ignorando problemas de precisão numérica).
Isso quebra na presença de um ruído, porque você começa a se ajustar ao ruído. Então, aqui vem a regularização para ajudar: isso pode reduzir a adaptação ao ruído, permitindo assim construir maiores NN para atender a problemas não-lineares.
A discussão a seguir não é essencial para minha resposta, mas adicionei em parte para responder a alguns comentários e motivar o corpo principal da resposta acima. Basicamente, o resto da minha resposta é como incêndios franceses que vêm com uma refeição de hambúrguer, você pode pular.
(Ir) Caso relevante: Regressão polinomial
pecado( X )x ∈ ( - 3 , 3 )
Em seguida, ajustaremos polinômios com ordem progressivamente mais alta a um pequeno conjunto de dados muito barulhento com 7 observações:
Podemos observar o que nos disseram sobre polinômios por muitas pessoas conhecidas: são instáveis e começam a oscilar descontroladamente com o aumento da ordem dos polinômios.
No entanto, o problema não são os próprios polinômios. O problema é o barulho. Quando ajustamos polinômios a dados ruidosos, parte do ajuste é ao ruído, não ao sinal. Aqui estão os mesmos polinômios exatos que se ajustam ao mesmo conjunto de dados, mas com o ruído completamente removido. Os ajustes são ótimos!
pecado( X )
Observe também que os polinômios de ordem superior não se encaixam tão bem quanto a ordem 6, porque não há observações suficientes para defini-los. Então, vejamos o que acontece com 100 observações. Em um gráfico abaixo, você vê como um conjunto de dados maior nos permitiu ajustar polinômios de ordem superior, obtendo assim um melhor ajuste!
Ótimo, mas o problema é que geralmente lidamos com dados barulhentos. Veja o que acontece se você ajustar o mesmo a 100 observações de dados muito ruidosos, veja a tabela abaixo. Voltamos à estaca zero: polinômios de ordem superior produzem horríveis oscilações. Portanto, aumentar o conjunto de dados não ajudou muito no aumento da complexidade do modelo para explicar melhor os dados. Isso ocorre, novamente, porque o modelo complexo se ajusta melhor não apenas à forma do sinal, mas também à forma do ruído.
Finalmente, vamos tentar alguma regularização fraca sobre esse problema. O gráfico abaixo mostra a regularização (com diferentes penalidades) aplicada à ordem 9 de regressão polinomial. Compare isso com a ordem (potência) do ajuste polinomial 9 acima: em um nível apropriado de regularização, é possível ajustar polinômios de ordem superior a dados ruidosos.
Apenas no caso de não estar claro: não estou sugerindo o uso da regressão polinomial dessa maneira. Os polinômios são bons para ajustes locais, portanto, um polinômio por partes pode ser uma boa escolha. Ajustar o domínio inteiro a eles geralmente é uma má ideia, porque eles são sensíveis ao ruído, como deve ser evidente nas plotagens acima. Se o ruído é numérico ou de alguma outra fonte não é tão importante neste contexto. o barulho é barulho, e os polinômios reagirão a ele apaixonadamente.