Gradiente para a função de perda logística

Eu faria uma pergunta relacionada a este .

Encontrei um exemplo de como escrever a função de perda personalizada para o xgboost aqui :

loglossobj <- function(preds, dtrain) {
  # dtrain is the internal format of the training data
  # We extract the labels from the training data
  labels <- getinfo(dtrain, "label")
  # We compute the 1st and 2nd gradient, as grad and hess
  preds <- 1/(1 + exp(-preds))
  grad <- preds - labels
  hess <- preds * (1 - preds)
  # Return the result as a list
  return(list(grad = grad, hess = hess))
}

A função de perda logística é

l o g (1 + e^{- y P})

$log(1+e^{-yP})$

onde é probabilidades de log e é rótulos (0 ou 1). $P$ $y$

Minha pergunta é: como podemos obter gradiente (primeira derivada) simplesmente igual à diferença entre valores verdadeiros e probabilidades previstas (calculadas a partir de log-odds as preds <- 1/(1 + exp(-preds)))?

— Ogurtsov
fonte

Você deve usar a perda de erro ao quadrado para conseguir isso. Sua notação é confusa e deve ser definida na postagem. Se é o risco previsto, então perda é o que você deseja. Estou confuso porque nunca usamos para significar as probabilidades do log.

p

$p$

(y - p)^{2}

$(y-p)^2$

p

$p$

— AdamO

p

$p$ foi fixado ao capital . É log-odds, e está claramente marcado na pergunta. Eu sei que o gradiente para a função de perda é , mas é uma perda squred, não logística.

P

$P$

(y - f (x))^{2}

$(y-f(x))^2$

f (x) - y

$f(x)-y$

— Ogurtsov

Quando você diz "gradiente", qual gradiente você quer dizer? O gradiente da perda? É uma relação matemática simples que, se a derivada de uma expressão é uma diferença linear, a expressão é uma diferença quadrática ou perda de erro ao quadrado.

— Adamo

Sim, é tudo sobre o gradiente da perda. É simples, quando a função de perda é um erro ao quadrado. Nesse caso, a função de perda é a perda logística ( en.wikipedia.org/wiki/LogitBoost ), e não consigo encontrar correspondência entre o gradiente dessa função e o exemplo de código fornecido.

— Ogurtsov

Minha resposta para minha pergunta: sim, pode-se mostrar que o gradiente para perda logística é igual à diferença entre valores verdadeiros e probabilidades previstas. Uma breve explicação foi encontrada aqui .

Primeiro, a perda logística é apenas uma probabilidade logarítmica negativa, para que possamos começar com a expressão de probabilidade logarítmica ( p. 74 - essa expressão é a própria probabilidade logarítmica, não a probabilidade logarítmica negativa):

L = y_{i} \cdot l o g (p_{i}) + (1 - y_{i}) \cdot l o g (1 - p_{i})

$L=y_{i}\cdot log(p_{i})+(1-y_{i})\cdot log(1-p_{i})$

$p_{i}$ é uma função logística: , em que são valores previstos antes da transformação logística (ou seja, log-odds): $p_{i}=\frac{1}{1+e^{-\hat{y}_{i}}}$ $\hat{y}_{i}$

L = y_{i} \cdot l o g (\frac{1}{1 + e^{- {\hat{y}}_{i}}}) + (1 - y_{i}) \cdot l o g (\frac{e^{- {\hat{y}}_{i}}}{1 + e^{- {\hat{y}}_{i}}})

$L=y_{i}\cdot log\left(\frac{1}{1+e^{-\hat{y}_{i}}}\right)+(1-y_{i})\cdot log\left(\frac{e^{-\hat{y}_{i}}}{1+e^{-\hat{y}_{i}}}\right)$

Primeira derivada obtida usando o Wolfram Alpha:

L^{'} = \frac{y_{i} - (1 - y_{i}) \cdot e^{{\hat{y}}_{i}}}{1 + e^{{\hat{y}}_{i}}}

${L}'=\frac{y_{i}-(1-y_{i})\cdot e^{\hat{y}_{i}}}{1+e^{\hat{y}_{i}}}$

Depois de multiplicar por : $\frac{e^{-\hat{y}_{i}}}{e^{-\hat{y}_{i}}}$

L^{'} = \frac{y_{i} \cdot e^{- {\hat{y}}_{i}} + y_{i} - 1}{1 + e^{- {\hat{y}}_{i}}} = \frac{y_{i} \cdot (1 + e^{- {\hat{y}}_{i}})}{1 + e^{- {\hat{y}}_{i}}} - \frac{1}{1 + e^{- {\hat{y}}_{i}}} = y_{i} - p_{i}

${L}'=\frac{y_{i}\cdot e^{-\hat{y}_{i}}+y_{i}-1}{1+e^{-\hat{y}_{i}}}= \frac{y_{i}\cdot (1+e^{-\hat{y}_{i}})}{1+e^{-\hat{y}_{i}}}-\frac{1}{1+e^{-\hat{y}_{i}}}=y_{i}-p_{i}$

Após alterar o sinal, temos expressão para gradiente da função de perda logística:

p_{i} - y_{i}

$p_{i}-y_{i}$

— Ogurtsov
fonte

O que você está chamando aqui não é uma previsão de , mas uma combinação linear de preditores. Na modelagem linear generalizada, usamos a notação e chamamos esse termo de "preditor linear". Sua derivada da probabilidade de log (pontuação) está errada, deve haver um termo ao quadrado no denominador, pois os bernouis formam uma probabilidade exponencial. A pontuação deve ser de forma a

\hat{y}

$\hat{y}$

y

$y$

ν

$\nu$

\frac{1}{p_{i} (1 - p_{i})} (y_{i} - p_{i})

$\frac{1}{p_i(1-p_i)}(y_i - p_i)$

— Adamo