Qual é a diferença entre Maximizando a Probabilidade Condicional (Log) ou a Probabilidade Conjunta (Log) ao estimar os parâmetros de um modelo?

Considere-se uma resposta y e matriz de dados X . Suponha que eu esteja criando um modelo do formulário -

y ~ g (X, ) $\theta$

(g () pode ser qualquer função de X e ) $\theta$

Agora, para estimar usando o método de máxima verossimilhança (ML), eu poderia ir em frente com ML condicional (supondo que eu conheça a forma da densidade condicional f (y | X) ) ou com ML conjunta (supondo que eu conheça a forma de junção densidade f (y, X) ou equivalente, f (X | y) * f (y) ) $\theta$

Fiquei me perguntando se há alguma consideração em avançar com um dos dois métodos acima, além da suposição sobre as densidades. Além disso, existem instâncias (tipos específicos de dados) em que um método domina outro na maioria das vezes?

estimation maximum-likelihood optimization

— peixe firme
fonte

Se você tem muitos dados, acho que as densidades das juntas são mais poderosas.

— user541686

Depende do que você deseja fazer com o seu modelo mais tarde.

Modelos conjuntos tentam prever toda a distribuição sobre e . Possui algumas propriedades úteis: $X$ $y$

Detecção de outlier. Amostras muito diferentes das amostras de treinamento podem ser identificadas, pois elas têm uma probabilidade marginal baixa. Um modelo condicional não será necessariamente necessário para lhe dizer isso.
Às vezes é mais fácil otimizar. Se o seu modelo era um modelo de mistura gaussiano, por exemplo, existem maneiras bem documentadas de ajustá-lo à densidade da junta que você pode conectar (maximização de expectativa, bayes variacionais), mas as coisas ficam mais complicadas que você deseja treiná-lo condicionalmente.
Dependendo do modelo , o treinamento pode potencialmente ser paralelizado, aproveitando as vantagens das independências condicionais, e você também pode evitar a necessidade de treiná-lo mais tarde, se novos dados estiverem disponíveis. Por exemplo, se toda distribuição marginal for parametrizada separadamente e você observar uma nova amostra , a única distribuição marginal que você precisará treinar novamente é . As outras distribuições marginais não são afetadas. Essa propriedade é menos comum com modelos condicionais. $f(X|y)$ $(X=x_1,y=y_1)$ $f(X|y=y_1)$ $f(X|y=y_2), f(X|y=y_3), \ldots$
Lembro-me de ler um artigo que indicava que modelos conjuntos têm outras propriedades interessantes nos casos em que há muitos e muitos dados, mas não consigo lembrar a afirmação exata ou encontrá-la em minha grande pasta de artigos interessantes. Se o encontrar depois, colocarei uma referência.

Modelos condicionais, no entanto, também têm algumas propriedades interessantes

Eles podem funcionar muito bem.
Alguns tiveram muito trabalho para encontrar estratégias de otimização sensatas (por exemplo, máquinas de vetores de suporte)
A distribuição condicional é muitas vezes mais simples de modelar do que a junção - para modelar a segunda, você precisa modelar a primeira e modelar a distribuição marginal. Se você está interessado apenas em obter previsões precisas de qual valor é para um dado , pode ser mais sensato concentrar a capacidade do seu modelo em representá-lo sozinho. $y$ $X$

— Pat
fonte

Obrigado pela resposta. Você também pode fornecer links para a literatura relevante?

— steadyfish