Por que variável latente gaussiana (ruído) para GAN?

Quando eu estava lendo sobre a GAN, o que eu não entendo é por que as pessoas costumam escolher a entrada para uma GAN (z) como amostras de um gaussiano? - e também existem problemas potenciais associados a isso?

deep-learning gan gaussian

— asahi kibou
fonte

Por que as pessoas costumam escolher a entrada para um GAN (z) para serem amostras de um gaussiano?

Geralmente, por duas razões: (1) simplicidade matemática, (2) trabalhando bem o suficiente na prática. No entanto, como explicamos, sob premissas adicionais, a escolha de gaussiana poderia ser mais justificada.

Compare com a distribuição uniforme . A distribuição gaussiana não é tão simples quanto a distribuição uniforme, mas também não é tão distante assim. Acrescenta a suposição de "concentração em torno da média" à uniformidade, o que nos dá os benefícios da regularização de parâmetros em problemas práticos.

O menos conhecido . O uso de Gaussiano é melhor justificado para quantidades contínuas que são menos conhecidas para nós, por exemplo, ruído ou fator latente . "O menos conhecido" pode ser formalizado como " distribuição que maximiza a entropia para uma dada variação ". A resposta para essa otimização é para média arbitrária . Portanto, nesse sentido, se assumirmos que uma quantidade é a menos conhecida para nós, a melhor escolha é gaussiana. Obviamente, se adquirirmos mais conhecimento sobre essa quantidade, podemos fazer melhor do que a suposição "menos conhecida", como será ilustrado nos exemplos a seguir. $\epsilon$ $z$ $N(\mu, \sigma^2)$ $\mu$

Teorema do limite central . Outra justificativa comumente usada é que, como muitas observações são o resultado (médio) de um grande número de [quase] processos independentes, a CLT justifica a escolha de gaussiano. Essa não é uma boa justificativa, porque também existem muitos fenômenos do mundo real que não obedecem à Normalidade (por exemplo , distribuição da lei de potência ) e, como a variável é a menos conhecida por nós, não podemos decidir quais dessas analogias do mundo real são mais preferível.

Esta seria a resposta para "por que assumimos um ruído gaussiano em regressão probabilística ou filtro de Kalman ?" também.

Também existem problemas potenciais associados a isso?

Sim. Quando assumimos gaussianos, estamos simplificando. Se nossa simplificação for injustificada, nosso modelo terá um desempenho inferior. Neste ponto, devemos procurar uma suposição alternativa. Na prática, quando fazemos uma nova suposição sobre a quantidade menos conhecida (com base no conhecimento adquirido ou na especulação), podemos extrair essa suposição e introduzir uma nova gaussiana, em vez de alterar a suposição gaussiana. Aqui estão dois exemplos:

Exemplo em regressão (ruído) . Suponha que não temos conhecimento sobre a observação (a menos conhecida), portanto assumimos . Após ajustar o modelo, podemos observar que a variação estimada é alta. Após alguma investigação, podemos assumir que é uma função linear da medida , assim extraímos essa suposição como , onde é o novo "menos conhecido". Posteriormente, podemos descobrir que nossa suposição de linearidade também é fraca, pois, após o ajuste do modelo, o observado $A$ $A \sim N(\mu, \sigma^2)$ $\hat{\sigma}^2$ $A$ $B$ $A = \color{blue}{b_1B +c} + \epsilon_1$ $\epsilon_1 \sim N(0, \sigma_1^2)$ $\hat{\epsilon}_1 = A - \hat{b}_1B -\hat{c}$ também possui um alto . Então, podemos extrair uma nova suposição como , onde é o novo "o menos conhecido ", e assim por diante. $\hat{\sigma}_1^2$ $A = b_1B + \color{blue}{b_2B^2} + c + \epsilon_2$ $\epsilon_2 \sim N(0, \sigma_2^2)$
Exemplo em GAN (fator latente) . Ao ver resultados irreais da GAN (conhecimento), podemos adicionar entre e a saída (extração de suposição), na esperança de que a nova rede (ou função) com o novo levaria a resultados mais realistas e assim por diante. $\color{blue}{\text{more layers}}$ $z$ $z_2 \sim N(0, \sigma_2^2)$

— Esmailiano
fonte