Por que uma função de perda de 0-1 é intratável?

No livro Deep Learning de Ian Goodfellow , está escrito que

Às vezes, a função de perda com a qual realmente nos preocupamos (digamos, erro de classificação) não é aquela que pode ser otimizada com eficiência. Por exemplo, minimizar exatamente a perda esperada de 0-1 é tipicamente intratável (exponencial na dimensão de entrada), mesmo para um classificador linear. Em tais situações, normalmente é possível otimizar uma função de perda substituta, que atua como proxy, mas possui vantagens.

Por que a perda de 0-1 é intratável ou como é exponencial nas dimensões de entrada?

neural-networks deep-learning loss-functions

— samra irshad
fonte

Respostas:

A função de perda 0-1 é não convexa e descontínua, portanto, os métodos de (sub) gradiente não podem ser aplicados. Para classificação binária com um separador linear, essa função de perda pode ser formulada como a localização de que minimiza o valor médio da função indicadora sobre todas as amostras . Isso é exponencial nas entradas, pois como existem dois valores possíveis para cada par, existem configurações possíveis para verificar $\beta$ $\mathbf{1}(y_{i}\beta\mathbf{x}_{i} \leq 0)$ $i$ $2^{n}$ $n$ total de pontos de amostra. Isso é conhecido por ser NP-difícil. Saber o valor atual da sua função de perda não fornece nenhuma pista sobre como você deve modificar sua solução atual para melhorar, pois você pode derivar se métodos de gradiente para funções convexas ou contínuas estiverem disponíveis.

— Don Walpola
fonte

Muito bom ponto - na prática, pesquisa aleatória ou pesquisa exaustiva são os únicos métodos que podem ser usados para encontrar o mínimo de uma função de perda, certo?

— DeltaIV

^^ ou métodos de inteligência evolucionários / baseados em enxame, talvez?

— samra irshad 5/09/18

@samrairshad Sim, na verdade a perda de 0-1 não é incomum de se ver nos métodos evolutivos.

— John Doucette 5/09

Antes de pular da pesquisa aleatória para algoritmos evolutivos / enxame complexos, eu verificaria o método de entropia cruzada (CEM).

— Max1

O erro de classificação às vezes é tratável. Ele pode ser otimizado com eficiência - embora não exatamente - usando o método Nelder-Mead, como mostrado neste artigo:

https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html

"A redução de dimensão é o processo de transformação de vetores multidimensionais em um espaço de baixa dimensão. No reconhecimento de padrões, muitas vezes é desejável que essa tarefa seja executada sem perda significativa de informações de classificação. O erro de Bayes é um critério ideal para essa finalidade; no entanto, sabe-se que é notoriamente difícil para o tratamento matemático. Consequentemente, na prática, critérios sub-ótimos foram propostos. Propomos um critério alternativo, baseado na estimativa do erro de Bayes, que se espera mais próximo do critério ideal do que o critério atualmente em uso. Um algoritmo para redução de dimensão linear, com base nesse critério, é concebido e implementado. Experimentos demonstram seu desempenho superior em comparação com algoritmos convencionais ".

O erro Bayes mencionado aqui é basicamente a perda de 0-1.

Este trabalho foi realizado no contexto de redução de dimensão linear. Não sei quão eficaz seria para treinar redes de aprendizado profundo. Mas o ponto é, e a resposta para a pergunta: perda de 0-1 não é universalmente intratável. Pode ser otimizado relativamente bem para pelo menos alguns tipos de modelos.

— ljubomir
fonte