O erro de classificação às vezes é tratável. Ele pode ser otimizado com eficiência - embora não exatamente - usando o método Nelder-Mead, como mostrado neste artigo:
https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html
"A redução de dimensão é o processo de transformação de vetores multidimensionais em um espaço de baixa dimensão. No reconhecimento de padrões, muitas vezes é desejável que essa tarefa seja executada sem perda significativa de informações de classificação. O erro de Bayes é um critério ideal para essa finalidade; no entanto, sabe-se que é notoriamente difícil para o tratamento matemático. Consequentemente, na prática, critérios sub-ótimos foram propostos. Propomos um critério alternativo, baseado na estimativa do erro de Bayes, que se espera mais próximo do critério ideal do que o critério atualmente em uso. Um algoritmo para redução de dimensão linear, com base nesse critério, é concebido e implementado. Experimentos demonstram seu desempenho superior em comparação com algoritmos convencionais ".
O erro Bayes mencionado aqui é basicamente a perda de 0-1.
Este trabalho foi realizado no contexto de redução de dimensão linear. Não sei quão eficaz seria para treinar redes de aprendizado profundo. Mas o ponto é, e a resposta para a pergunta: perda de 0-1 não é universalmente intratável. Pode ser otimizado relativamente bem para pelo menos alguns tipos de modelos.