O que é minimização de energia no aprendizado de máquina?

Eu estava lendo sobre otimização para um problema mal colocado na visão por computador e me deparei com a explicação abaixo sobre otimização na Wikipedia. O que eu não entendo é: por que eles chamam essa otimização de " minimização de energia " no Computer Vision?

Um problema de otimização pode ser representado da seguinte maneira:

Dada: uma função de um conjunto para os números reais $f: A \to R$ $A$

Procurado: um elemento em tal que para todo em ("minimização") ou tal que para todo em (" maximização "). $x_0$ $A$ $f(x_0) ≤ f(x)$ $x$ $A$ $f(x_0) ≥ f(x)$ $x$ $A$

Essa formulação é chamada de problema de otimização ou problema de programação matemática (um termo não diretamente relacionado à programação de computadores, mas ainda em uso, por exemplo, em programação linear - consulte Histórico abaixo). Muitos problemas teóricos e do mundo real podem ser modelados nessa estrutura geral. Os problemas formulados usando essa técnica nos campos da física e da visão computacional podem se referir à técnica como minimização de energia, falando do valor da função como representando a energia do sistema que está sendo modelado. $f$

machine-learning optimization computer-vision

— iamprem
fonte

Respostas:

Modelos baseados em energia são uma estrutura unificada para representar muitos algoritmos de aprendizado de máquina. Eles interpretam a inferência como minimizando uma função energética e o aprendizado como minimizando uma perda funcional.

A função de energia é uma função da configuração de variáveis latentes e da configuração de entradas fornecidas em um exemplo. Inferência normalmente significa encontrar uma configuração de baixa energia ou amostragem da configuração possível para que a probabilidade de escolher uma determinada configuração seja uma distribuição de Gibbs.

A perda funcional é uma função dos parâmetros do modelo, dados muitos exemplos. Por exemplo, em um problema de aprendizado supervisionado, sua perda é o erro total nas metas. Às vezes é chamado de "funcional" porque é uma função da função (parametrizada) que constitui o modelo.

Artigo principal:

Y. LeCun, S. Chopra, R. Hadsell, M. Ranzato e FJ Huang, “Um tutorial sobre aprendizagem baseada em energia”, em Predicting Structured Data, MIT Press, 2006.

Veja também:

LeCun, Y. e Huang, FJ (2005). Funções de perda para treinamento discriminatório de modelos baseados em energia. Atas do 10º Workshop Internacional de Inteligência Artificial e Estatística (AIStats'05). Recuperado em http://yann.lecun.com/exdb/publis/pdf/lecun-huang-05.pdf

Ranzato, M., Boureau, Y.-L., Chopra, S., & LeCun, Y. (2007). Uma estrutura unificada baseada em energia para aprendizado não supervisionado. Proc. Conferência sobre IA e Estatística (AI-Stats). Recuperado em http://dblp.uni-trier.de/db/journals/jmlr/jmlrp2.html#RanzatoBCL07

— Neil G
fonte

Você pode expandir o que significa "Eles interpretam a inferência como minimizando uma função de energia e aprendendo como minimizando uma função de perda"? Como uma função de energia é diferente de uma função de perda?

— Cliff AB

Você poderia por favor elaborar sua resposta

— iamprem

@CliffAB Espero que seja mais claro?

— Neil G

@ NeilG: para ser sincero, ainda estou um pouco confuso. Para mim, parece que a "função de energia" é essencialmente a mesma coisa que a função de probabilidade nas estatísticas. É uma interpretação razoável ou estou perdendo algo mais sutil?

— Cliff AB

@CliffAB: A função de energia pode ser a probabilidade de log; nesse caso, a energia total exponenciada é uma. No entanto, isso nem é necessário: modelos baseados em energia não probabilísticos não se preocupam com essa normalização, o que pode torná-los mais eficientes do que os modelos probabilísticos. Isso ocorre porque evita avaliar integrais caras no espaço de configuração.

— 7116 Neil G

Na literatura de detecção de sinal, a energia de um sinal $x_t$ é definida como

E = Σ x_{t}^{2}

$E = \Sigma x_t^2$

Quando prever alguma resposta y a partir de algumas características x, uma forma muito comum e simples de proceder consiste em minimizar a soma dos quadrados dos erros

S S E = Σ (y - \hat{y})^{2}

$SSE= \Sigma (y-\hat{y})^2$ , onde

é a resposta ajustada. Observe a semelhança? O SSE é energia. Essa energia é minimizada pelos parâmetros ajustados.

\hat{y}

$\hat{y}$

— stan
fonte

Eu acho que você está confundindo a perda com a energia

— Neil G

Estou usando a definição padrão de energia do processamento de sinal . As pessoas de ciência da computação / aprendizado de máquina tendem a redefinir termos, eu acho. Eu venho de estatísticas e de fundo de processamento de sinal

— stan

Sua primeira fórmula é uma função energética. A segunda fórmula é a função de perda, pois não é uma função da configuração.

— 7116 Neil G

@ Neil Tenho certeza de que você está usando a terminologia corretamente, conforme definido nos documentos que você citou. É apenas uma terminologia diferente do que eu estou acostumado a onde SSE é energia

— stan