Digamos, é dependente de α . Rigorosamente falando,
se e α são variáveis aleatórias, poderíamos escrever p ( X ∣ α ) ;
no entanto, se é uma variável aleatória e α é um parâmetro, temos que escrever p ( X ; α ) .
Percebo várias vezes que a comunidade de aprendizado de máquina parece ignorar as diferenças e abusar dos termos.
Por exemplo, no famoso modelo LDA, em que é o parâmetro Dirichlet em vez de uma variável aleatória.
Não deveria ser ? Eu vejo muitas pessoas, incluindo os autores originais do artigo da LDA, escrevendo como p ( θ ∣ α ) .
6
Matematicamente falando, você sempre pode condicionar uma constante, pois esse é um caso limitante de variável aleatória. Do ponto de vista bayesiano, todas as incógnitas são tratadas como variáveis aleatórias, por isso faz sentido usar a notação de condicionamento por toda parte.
—
Xian
@ Xi'an Eu entendo o seu ponto de vista sobre "condicionamento constante". Mas imagine que eu desenhe partir de uma distribuição categórica do parâmetro θ , ou seja, X ∼ C a t ( θ ) . Posso escrever a distribuição como p ( X ∣ θ ) ? Isso me parece estranho, pois sempre é possível definir um θ fixo . p ( X ; θ ) me parece mais confortável.
—
Sibbs Gambling