Existem tantas técnicas de regularização que não é prático experimentar todas as combinações:
- l1 / l2
- norma máxima
- cair fora
- parada antecipada
- ...
Parece que a maioria das pessoas está satisfeita com a combinação de abandono e parada precoce: há casos em que o uso de outras técnicas faz sentido?
Por exemplo, se você deseja um modelo esparso, pode adicionar um pouco de regularização l1. Fora isso, existem fortes argumentos a favor da aspersão em outras técnicas de regularização?
Conheço o teorema do almoço sem almoço, em teoria precisaria experimentar todas as combinações de técnicas de regularização, mas não vale a pena tentar se quase nunca produz um aumento significativo no desempenho.