A comunidade de aprendizado de máquina está abusando "condicionada" e "parametrizada por"?

Digamos, é dependente de . Rigorosamente falando, $X$ $\alpha$

se e são variáveis aleatórias, poderíamos escrever ; $X$ $\alpha$ $p(X\mid\alpha)$
no entanto, se é uma variável aleatória e é um parâmetro, temos que escrever . $X$ $\alpha$ $p(X; \alpha)$

Percebo várias vezes que a comunidade de aprendizado de máquina parece ignorar as diferenças e abusar dos termos.

Por exemplo, no famoso modelo LDA, em que é o parâmetro Dirichlet em vez de uma variável aleatória. $\alpha$

insira a descrição da imagem aqui

Não deveria ser ? Eu vejo muitas pessoas, incluindo os autores originais do artigo da LDA, escrevendo como . $p(\theta;\alpha)$ $p(\theta\mid\alpha)$

machine-learning terminology

— Sibbs Gambling
fonte

Matematicamente falando, você sempre pode condicionar uma constante, pois esse é um caso limitante de variável aleatória. Do ponto de vista bayesiano, todas as incógnitas são tratadas como variáveis aleatórias, por isso faz sentido usar a notação de condicionamento por toda parte.

— Xian

@ Xi'an Eu entendo o seu ponto de vista sobre "condicionamento constante". Mas imagine que eu desenhe

partir de uma distribuição categórica do parâmetro

, ou seja,

. Posso escrever a distribuição como

? Isso me parece estranho, pois sempre é possível definir um

fixo .

parece mais confortável.

X

$X$

θ

$\theta$

X \sim C a t (θ)

$X\sim Cat(\theta)$

p (X ∣ θ)

$p(X\mid\theta)$

θ

$\theta$

p (X; θ)

$p(X;\theta)$

— Sibbs Gambling

p (X ∣ θ)

$p(X\mid\theta)$

Eu acho que isso é mais sobre estatísticas bayesianas / não bayesianas do que sobre machine learning vs .. estatísticas.

$X,\alpha$ $p(X \mid \alpha)$ $X$ $\alpha$ $\alpha$ $\alpha$ $p(X; \alpha)$ $p(X \mid \alpha)$ $p(\alpha)$ $\alpha$ $\alpha$ $\alpha$

$p(X ; \alpha)$ $p(X \mid \alpha)$ $p$ $\mid$

— Juho Kokkala
fonte