O foco desta pergunta
"Como podemos ... processar os dados da verdadeira distribuição e os dados do modelo generativo na mesma iteração?
Analisando a publicação fundamental
Na página referenciada, Entendendo as Redes Adversárias Generativas (2017) , o candidato a doutor Daniel Danieleta faz referência corretamente às Redes Adversárias Generativas, Goodfellow, Pouget-Abadie, Mirza, Xu, Warde-Farley, Ozair, Courville e Bengio, junho de 2014 . São estados abstratos: "Propomos uma nova estrutura para estimar modelos generativos por meio de um processo contraditório, no qual treinamos simultaneamente dois modelos ..." Este artigo original define dois modelos definidos como MLPs (perceptrons multicamadas).
- Modelo generativo, G
- Modelo discriminativo, D
Esses dois modelos são controlados de uma maneira em que um fornece uma forma de feedback negativo em relação ao outro, portanto, o termo contraditório.
- G é treinado para capturar a distribuição de dados de um conjunto de exemplos suficientemente bem para enganar D.
- D é treinado para descobrir se suas entradas são zombarias de G ou o conjunto de exemplos para o sistema GAN.
(O conjunto de exemplos para o sistema GAN às vezes é chamado de amostra real, mas pode não ser mais real do que os gerados. Ambos são matrizes numéricas em um computador, um conjunto com uma origem interna e outro com uma fonte externa. Se as externas são de uma câmera apontada para alguma cena física não é relevante para a operação GAN.)
Probabilisticamente, enganar D é sinônimo de maximizar a probabilidade de D gerar tantos falsos positivos e falsos negativos quanto corrigir as categorizações, 50% cada. Na ciência da informação, isso significa que o limite de informação que D tem de G se aproxima de 0 quando t se aproxima do infinito. É um processo de maximizar a entropia de G da perspectiva de D, assim o termo entropia cruzada.
Como a convergência é alcançada
Como a função de perda reproduzida da escrita de Sieta em 2017 na pergunta é a de D, projetada para minimizar a entropia cruzada (ou correlação) entre as duas distribuições quando aplicada ao conjunto completo de pontos para um determinado estado de treinamento.
H( ( x1, y1) , D ) = 1D ( x1)
Existe uma função de perda separada para G, projetada para maximizar a entropia cruzada. Observe que existem DOIS níveis de granularidade de treinamento no sistema.
- A do jogo se move em um jogo para dois jogadores
- O das amostras de treinamento
Eles produzem iteração aninhada com a iteração externa da seguinte maneira.
- O treinamento de G prossegue usando a função de perda de G.
- Padrões de entrada simulados são gerados a partir de G no seu estado atual de treinamento.
- O treinamento de D prossegue usando a função de perda de D.
- Repita se a entropia cruzada ainda não estiver suficientemente maximizada, D ainda poderá discriminar.
Quando D finalmente perde o jogo, alcançamos nosso objetivo.
- G recuperou a distribuição de dados de treinamento
- D foi reduzido a ineficácia ("1/2 probabilidade em todo lugar")
Por que o treinamento simultâneo é necessário
Se os dois modelos não fossem treinados de um lado para o outro para simular a simultaneidade, a convergência no plano adversário (a iteração externa) não ocorreria na solução exclusiva reivindicada no artigo de 2014.
Mais Informações
Além da questão, o próximo item de interesse no artigo de Sieta é que, "Projeto inadequado da função de perda do gerador", pode levar a valores de gradiente insuficientes para orientar a descida e produzir o que às vezes é chamado de saturação. A saturação é simplesmente a redução do sinal de feedback que guia a descida na propagação traseira para o ruído caótico resultante do arredondamento do ponto flutuante. O termo vem da teoria dos sinais.
Sugiro estudar o artigo de 2014 de Goodfellow et alia (pesquisadores experientes) para aprender sobre a tecnologia GAN em vez da página de 2017.