O que é o normalizador de log de gradiente?

No wiki, a função softmax é definida como o normalizador-log-gradiente da distribuição de probabilidade categórica . Uma explicação parcial para o normalizador de log é encontrada aqui , mas o que significa o normalizador de gradiente de log ?

softmax

— tashuhka
fonte

Usando a notação da página da wikipedia ( https://en.wikipedia.org/wiki/Exponential_family ), uma família exponencial é uma família de distribuições de probabilidade que possuem pmfs / pdfs que podem ser escritos como (observando que , pode ser vetor valorizado): onde são os parâmetros naturais, são estatísticas suficientes e é o normalizador de log (às vezes chamado de função de partição de log). O motivo é chamado de normalizador de log, pois pode ser verificado que, no caso contínuo, para que este seja um pdf válido, devemos ter $\theta$ $x$

f_{θ} (x) = h (x) \exp [η (θ)^{T} t (x) - A (θ)]

$f_{\theta}(x)=h(x)\exp[\eta(\theta)^Tt(x)-A(\theta)]$

η (θ) = η

$\eta(\theta)=\eta$

t (x)

$t(x)$

A (θ)

$A(\theta)$

A (θ)

$A(\theta)$

A (θ) = \log [\int h (x) \exp [η (θ)^{T} t (x)] d x],

$A(\theta)=\log\left[\int h(x)\exp[\eta(\theta)^Tt(x)]dx\right],$ e no caso discreto, para que este seja um pmf válido , devemos ter Em cada caso, notamos que e são as constantes de normalização das distribuições, daí o nome log normalizer.

A (θ) = \log [\sum_{x} h (x) \exp [η (θ)^{T} t (x)]] .

$A(\theta)=\log\left[\sum_x h(x)\exp[\eta(\theta)^Tt(x)]\right].$

\int h (x) \exp [η (θ)^{T} t (x)] d x

$\int h(x)\exp[\eta(\theta)^Tt(x)]dx$

\sum_{x} h (x) \exp [η (θ)^{T} t (x)]

$\sum_x h(x)\exp[\eta(\theta)^Tt(x)]$

Agora, para ver a relação específica entre a função softmax e a distribuição categórica dimensional , teremos que usar uma parametrização específica da distribuição. Ou seja, seja tal que e e defina (deixando ). O pmf para esta distribuição é (deixando ser um vetor quente, ou seja, e para ): $k$ $\theta_1,\cdots,\theta_{k-1}$ $0<\theta_1,\cdots,\theta_{k-1}$ $\sum_{i=1}^{k-1}\theta_i<1$ $\theta_k=1-\sum_{i=1}^{k-1}\theta_i$ $\theta=(\theta_1,\cdots,\theta_{k})$ $x=(x_1,\cdots,x_{k})$ $x_i=1$ $x_j=0$ $i\neq j$

f_{θ} (x) = \prod_{i = 1}^{k} θ_{i}^{x_{i}} .

$f_{\theta}(x)=\prod_{i=1}^k\theta_i^{x_i}.$ Para escrever isso como uma família exponencial, observe que , , e , portanto:

h (x) = 1

$h(x)=1$

η (θ) = (\log [θ_{1} / θ_{k}], \dots, \log [θ_{k - 1} / θ_{k}], 0)

$\eta(\theta)=(\log[\theta_1/\theta_k],\cdots, \log[\theta_{k-1}/\theta_k],0)$

t (x) = (x_{1}, \dots, x_{k})

$t(x)=(x_1,\cdots,x_{k})$

A (θ) = - \log [θ_{k}]

$A(\theta)=-\log[\theta_k]$

f_{θ} (x) = \exp [(\log [θ_{1} / θ_{k}], \dots, \log [θ_{k - 1} / θ_{k}], 0)^{T} (x_{1}, \dots, x_{k}) - (- \log [θ_{k}])] .

$f_{\theta}(x)=\exp[(\log[\theta_1/\theta_k],\cdots, \log[\theta_{k-1}/\theta_k],0)^T(x_1,\cdots,x_{k})-(-\log[\theta_k])].$

Agora vamos escrever sugestivamente , para que possamos escrever . Então o normalizador de log se torna Tomando a derivada parcial em relação a , encontramos revelando que o gradiente do normalizador de log é realmente a função softmax: $\eta(\theta_i)=\log[\theta_i/\theta_k]=\eta_i$ $\theta_i=\frac{e^{\eta_i}}{\sum_{j=1}^ke^{\eta_j}}$

A (η) = - \log [\frac{e^{η_{k}}}{\sum_{j = 1}^{k} e^{η_{j}}}] = - \log [\frac{1}{\sum_{j = 1}^{k} e^{η_{j}}}] = \log [\sum_{j = 1}^{k} e^{η_{j}}] .

$A(\eta)=-\log\left[\frac{e^{\eta_k}}{\sum_{j=1}^ke^{\eta_j}}\right]= -\log\left[\frac{1}{\sum_{j=1}^ke^{\eta_j}}\right]=\log\left[\sum_{j=1}^ke^{\eta_j}\right].$

η_{i}

$\eta_i$

\frac{\partial}{\partial η_{i}} A (η) = \frac{e^{η_{i}}}{\sum_{j = 1}^{k} e^{η_{j}}},

$\frac{\partial}{\partial \eta_i}A(\eta)=\frac{e^{\eta_i}}{\sum_{j=1}^ke^{\eta_j}},$

\nabla A (η) = [\frac{e^{η_{1}}}{\sum_{j = 1}^{k} e^{η_{j}}}, \dots, \frac{e^{η_{k}}}{\sum_{j = 1}^{k} e^{η_{j}}}] .

$\nabla A(\eta)=\left[\frac{e^{\eta_1}}{\sum_{j=1}^ke^{\eta_j}},\cdots,\frac{e^{\eta_k}}{\sum_{j=1}^ke^{\eta_j}}\right].$

— aleshing
fonte

Uau!! Essa foi uma ótima explicação e tem total sentido. Obrigado :)

— tashuhka

Eu estou procurando essa derivação há muito tempo! Gostaria de saber, em que contexto você teve para desenvolver esse conhecimento? Você viu isso como parte de um curso ou livro? Continuei encontrando referências a esse relacionamento na internet, mas ninguém deu os detalhes.

— Zipzapboing 16/09/19

@zipzapboing Na verdade, eu não conhecia essa propriedade do softmax até ver a pergunta da OP! No entanto, eu tive um curso de estatísticas de nível de casela e berger (onde famílias exponenciais e algumas de suas outras propriedades são introduzidas) sob meu currículo, o que me permitiu saber que provar a propriedade não seria tão difícil com a parametrização correta.

— aleshing