Sim, é muito comum usar os dois truques. Eles resolvem problemas diferentes e podem trabalhar bem juntos.
Uma maneira de pensar sobre isso é que a redução de peso altera a função que está sendo otimizada , enquanto o momento altera o caminho que você segue para o ideal .
A redução de peso, reduzindo seus coeficientes para zero, garante que você encontre um ótimo local com parâmetros de pequena magnitude. Isso geralmente é crucial para evitar ajustes excessivos (embora outros tipos de restrições nos pesos também possam funcionar). Como benefício colateral, ele também pode facilitar a otimização do modelo, tornando a função objetivo mais convexa.
Depois de ter uma função objetiva, você deve decidir como se mover nela. A descida mais acentuada no gradiente é a abordagem mais simples, mas você está certo de que as flutuações podem ser um grande problema. Adicionar impulso ajuda a resolver esse problema. Se você estiver trabalhando com atualizações em lote (o que geralmente é uma má idéia para redes neurais), as etapas do tipo Newton são outra opção. As novas abordagens "quentes" são baseadas no gradiente acelerado de Nesterov e na otimização "livre de Hessian".
Mas, independentemente de qual dessas regras de atualização você usa (momento, Newton, etc.), você ainda está trabalhando com a mesma função objetivo, determinada pela sua função de erro (por exemplo, erro ao quadrado) e outras restrições (por exemplo, redução de peso) . A principal questão ao decidir qual delas usar é a rapidez com que você obterá um bom conjunto de pesos.