As paradas e desistências precoces são suficientes para regular na prática a grande maioria das redes neurais profundas?

Existem tantas técnicas de regularização que não é prático experimentar todas as combinações:

l1 / l2
norma máxima
cair fora
parada antecipada
...

Parece que a maioria das pessoas está satisfeita com a combinação de abandono e parada precoce: há casos em que o uso de outras técnicas faz sentido?

Por exemplo, se você deseja um modelo esparso, pode adicionar um pouco de regularização l1. Fora isso, existem fortes argumentos a favor da aspersão em outras técnicas de regularização?

Conheço o teorema do almoço sem almoço, em teoria precisaria experimentar todas as combinações de técnicas de regularização, mas não vale a pena tentar se quase nunca produz um aumento significativo no desempenho.

neural-networks regularization dropout

— MiniQuark
fonte

Lembremos que o principal objetivo da regularização é reduzir o excesso de adaptação.

Que outras técnicas estão sendo usadas atualmente para reduzir o excesso de adaptação:

1) Compartilhamento de peso - como feito na CNN, aplicando os mesmos filtros na imagem.

2) Aumento de Dados - Aumentando os dados existentes e gerando dados sintéticos com modelos generativos

3) Grande quantidade de dados de treinamento - graças ao ImageNet etc.

4) Pré-treinamento - por exemplo, diga Use pesos aprendidos do ImageNet antes de treinar o classificador no conjunto de dados digamos Caltech.

5) O uso de RelU em redes neurais por si só incentiva a escarsidade, pois permite zero ativação. De fato, para regiões mais complexas no espaço de recursos, use mais RelUs, desative-as para regiões simples. Portanto, basicamente varia a complexidade do modelo com base na complexidade do problema.

O uso de várias dessas técnicas, além do abandono e da parada precoce, parece suficiente para os problemas que estão sendo resolvidos hoje. No entanto, para problemas novos com dados menores, você pode encontrar outras técnicas de regularização úteis.

— Amitoz Dandiana
fonte

+1 Ótima resposta, obrigado. Parece que há uma linha embaçada que separa as técnicas de inicialização do peso (por exemplo, pré-treinamento) e regularização. Além disso, algumas técnicas podem ser úteis para várias coisas, incluindo a regularização: por exemplo, a norma de lote destina-se a corrigir o problema dos gradientes de fuga, mas também possui alguns recursos de regularização. Vou esperar por algumas outras respostas antes de aceitar uma.

— MiniQuark 19/08/16