Antecedentes: Estou estudando o capítulo 6 do Deep Learning de Ian Goodfellow e Yoshua Bengio e Aaron Courville. Na seção 6.2.2.2 (páginas 182 de 183, que pode ser vista aqui ), é motivado o uso de sigmóide na saída .
Para resumir alguns dos materiais que deixe ser um neurónio de saída antes de uma activação é aplicado, onde h é a saída da camada oculta anterior, W é um vector de pesos e b é um viés escalar. O vetor de entrada é denotado x (do qual h é uma função) e o valor de saída é denotado y = ϕ ( z ) onde ϕ é a função sigmóide. O livro deseja definir uma distribuição de probabilidade sobre y usando o valor z
Nós omitimos a dependência de no momento para discutir como definir uma distribuição de probabilidade sobre y usando o valor z . O sigmóide pode ser motivado através da construção de uma distribuição de probabilidade não normalizada ˜ P ( y ) , que não soma 1. Podemos então dividir por uma constante apropriada para obter uma distribuição de probabilidade válida. Se começarmos com a suposição de que as probabilidades log não-normalizadas são lineares em y e z , podemos exponenciar para obter as probabilidades não-normalizadas. Em seguida, normalizamos para ver que isso gera uma distribuição de Bernoulli controlada por uma transformação sigmoidal de z: log ˜
Perguntas: Estou confuso sobre duas coisas, principalmente a primeira:
- De onde vem a suposição inicial? Por que a probabilidade log não normalizada é linear em e z ? Alguém pode me dar alguma inituition sobre como os autores iniciados com log ~ P ( y ) = y z ?
- Como segue a última linha?