Geralmente, redes neurais não são usadas para modelar densidades completas de probabilidade. Seu foco é apenas modelar a média de uma distribuição (ou em uma situação determinística simplesmente uma função não linear). No entanto, é muito possível modelar densidades completas de probabilidade via Redes Neurais.
Uma maneira fácil de fazer isso é, por exemplo, para um caso gaussiano: emitir a média de uma saída e a variação de outra saída da rede e, em seguida, minimizar funciona como parte de o processo de treinamento em vez do erro quadrado comum. Esse é o procedimento de probabilidade máxima para uma rede neural.−logN(y|x;μ,σ)
Depois de treinar essa rede toda vez que você conectar um valor como entrada, ele fornecerá μ e σ ; então, você poderá conectar todo o trigêmeo y , μ , σ à densidade f ( y | x ) ∼ N ( μ , σ ) para obter o valor da densidade para qualquer y que você desejar. Nesse estágio, você pode escolher qual valor y usar com base em uma função de perda de domínio real. É importante lembrar que, para µ, a ativação da saída deve ser irrestrita, para que você possa emitir -xμσy,μ,σf(y|x)∼N(μ,σ)yyμ para + inf enquanto σ deve ser apenas uma ativação positiva.−inf+infσ
Em geral, a menos que seja uma função determinística que buscamos, o treinamento padrão para perda ao quadrado usado em redes neurais é praticamente o mesmo procedimento que descrevi acima. Sob o capô um distribuição assume-se implicitamente sem se preocupar com o σ e se examinar cuidadosamente - l O g N ( y | x ; μ , σ ) dá-lhe uma expressão para perda quadrado ( A perda função do estimador de máxima verossimilhança gaussiana ). Nesse cenário, no entanto, em vez de um yGaussianσ−logN(y|x;μ,σ)yvalor ao seu gosto, você está sempre emitindo sempre que recebe um novo valor x .μx
Para a classificação, a saída será uma distribuição em vez de um G um u s s i a n , que tem um único parâmetro a emitir. Conforme especificado na outra resposta, esse parâmetro está entre 0 e 1, de modo que a ativação da saída deve ser adequada. Pode ser uma função logística ou outra coisa que atinja o mesmo objetivo.BernoulliGaussian01
Uma abordagem mais sofisticada são as redes de densidade de mistura do Bishop. Você pode ler sobre isso no artigo frequentemente mencionado aqui:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf