Por que minimizamos a probabilidade negativa se é equivalente à maximização da probabilidade?

47

Esta pergunta me intrigou por um longo tempo. Entendo o uso de 'log' para maximizar a probabilidade, por isso não estou perguntando sobre 'log'.

Minha pergunta é: como maximizar a probabilidade do log é equivalente a minimizar a "probabilidade do log negativo" (NLL), por que inventamos esse NLL? Por que não usamos a "probabilidade positiva" o tempo todo? Em que circunstâncias a NLL é favorecida?

Encontrei uma pequena explicação aqui. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , e parece explicar a equivalência óbvia em profundidade, mas não resolve minha confusão.

Qualquer explicação será apreciada.

maximum-likelihood likelihood

— Tony
fonte

3

A probabilidade máxima de log não é uma função de perda, mas sua negativa é a explicada no artigo na última seção. É uma questão de consistência. Suponha que você tenha um sistema de aprendizado inteligente tentando diferentes funções de perda para um determinado problema. O conjunto de funções de perda conterá perda ao quadrado, perda absoluta, etc. Para ter uma lista consistente, você adicionará probabilidade de log negativa à lista de funções de perda.

— Cagdas Ozgenc

41

Esta é uma resposta alternativa : otimizadores em pacotes estatísticos geralmente funcionam minimizando o resultado de uma função. Se sua função fornecer o valor de probabilidade primeiro, é mais conveniente usar o logaritmo para diminuir o valor retornado pela função de probabilidade. Então, como a probabilidade de log e a função de probabilidade têm a mesma tendência crescente ou decrescente, você pode minimizar a probabilidade de log negativo para realmente executar a estimativa de probabilidade máxima da função que está sendo testada. Veja, por exemplo, a nlminbfunção em R aqui

— Nicola Dinapoli
fonte

10

Eu diria que isso vai além dos otimizadores e está enraizado nas convenções da teoria da otimização. Parece que a minimização é frequentemente considerada a otimização padrão. Por exemplo, considere o nome "otimização convexa", que acompanha a minimização, mas poderia facilmente ser chamado de "otimização côncava".

— Bitwise

47

Os otimizadores geralmente minimizam uma função; portanto, usamos a probabilidade de log negativa como uma minimização equivalente a maximizar a probabilidade de log ou a própria probabilidade.

Apenas para completar, eu mencionaria que o logaritmo é uma função monotônica; portanto, otimizar uma função é o mesmo que otimizar o logaritmo dela. A transformação do log da função de probabilidade torna mais fácil o manuseio (a multiplicação se torna soma) e isso também é numericamente mais estável. Isso ocorre porque a magnitude das probabilidades pode ser muito pequena. Fazer uma transformação de log converte esses pequenos números em valores negativos maiores, com os quais uma máquina de precisão finita pode lidar melhor.

— Luca
fonte

4

Como exemplo, frequentemente encontro probabilidades de log da ordem de -40.000 no meu trabalho. Nesse regime, é numericamente impossível trabalhar com a probabilidade em si.

— Will Vousden

3

Aqui, meios de minimização diminuem a distância de duas distribuições para a sua mais baixa: a distribuição alvo de Bernoulli e a distribuição de resultados gerada. Medimos a distância de duas distribuições usando a divergência de Kullback-Leibler (também chamada de entropia relativa) e, devido à teoria dos grandes números, minimizar a divergência de KL equivale a minimizar a entropia cruzada (entropia cruzada de várias classes, veja aqui ou classificação binária, veja aqui e aqui ).

portanto

maximizar a probabilidade do log é equivalente a minimizar a "probabilidade do log negativo"

pode ser traduzido para

Maximizar a probabilidade do log é equivalente a minimizar a distância entre duas distribuições, portanto, é minimizar a divergência de KL e, em seguida, a entropia cruzada.

Eu acho que se tornou bastante intuitivo.

— Lerner Zhang
fonte

1

A resposta é mais simples do que você imagina. É a convenção que chamamos a função de objetivo de otimização de "função de custo" ou "função de perda" e, portanto, queremos minimizá-las, em vez de maximizá-las, e, portanto, a probabilidade de log negativa é formada, em vez de probabilidade positiva em seu palavra. Tecnicamente, ambos estão corretos. A propósito, se queremos maximizar algo, geralmente chamamos de "função de utilidade" e, portanto, o objetivo é maximizá-los.

— Yang
fonte