Esta pergunta me intrigou por um longo tempo. Entendo o uso de 'log' para maximizar a probabilidade, por isso não estou perguntando sobre 'log'.
Minha pergunta é: como maximizar a probabilidade do log é equivalente a minimizar a "probabilidade do log negativo" (NLL), por que inventamos esse NLL? Por que não usamos a "probabilidade positiva" o tempo todo? Em que circunstâncias a NLL é favorecida?
Encontrei uma pequena explicação aqui. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , e parece explicar a equivalência óbvia em profundidade, mas não resolve minha confusão.
Qualquer explicação será apreciada.