1
Um modelo de P (Y | X) pode ser treinado por descida de gradiente estocástico a partir de amostras não-iid de P (X) e de amostras iid de P (Y | X)?
Ao treinar um modelo parametrizado (por exemplo, para maximizar a probabilidade) por meio de descida estocástica do gradiente em alguns conjuntos de dados, geralmente é assumido que as amostras de treinamento são extraídas da distribuição de dados de treinamento. Portanto, se o objetivo é modelar uma distribuição conjunta , cada …