Existem muitas motivações, dependendo do problema. Mas a idéia é a mesma: adicione conhecimento a priori sobre algum problema para obter uma solução melhor e lidar com a complexidade. Uma maneira mais de colocar isso é: seleção de modelo. Aqui está um bom exemplo de seleção de modelo .
Outra idéia, profundamente relacionada a ela, é encontrar uma medida de similaridade de amostras de dados (existem termos diferentes que se relacionam com essa idéia: mapeamentos topográficos, métrica à distância, aprendizado múltiplo, ...).
Agora, vamos considerar um exemplo prático: reconhecimento óptico de caracteres. Se você capturar a imagem de um personagem, espera-se que o classificador lide com invariâncias: se você girar, deslocar ou dimensionar a imagem, ele poderá detectá-la. Além disso, se você aplicar alguma modificação ligeiramente à entrada, seria de esperar que a resposta / comportamento do seu classificador também variasse ligeiramente, porque ambas as amostras (o original e o modificado são muito semelhantes). É aqui que entra a aplicação da suavidade.
Há muitos artigos tratando dessa idéia, mas este (invariância de transformação no reconhecimento de padrões, distância tangente e propagação tangente, Simard et. Al) ilustra essas idéias em grande detalhe