Significado das notações de probabilidade

27

Qual é a diferença de significado entre a notação e que são comumente usadas em muitos livros e documentos? $P(z;d,w)$ $P(z|d,w)$

probability notation

— Aprendiz
fonte

13

f (x; θ) é o mesmo que f (x | θ), significando simplesmente que θ é um parâmetro fixo e a função f é uma função de x. f (x, Θ), OTOH, é um elemento de uma família (conjunto) de funções, onde os elementos são indexados por Θ. Uma distinção sutil, talvez, mas importante, esp. quando chegar a hora de estimar um parâmetro desconhecido θ com base em dados conhecidos x; nesse momento, θ varia e x é fixo, resultando na "função de verossimilhança". Uso de "|" é mais comum entre estatísticos ";" entre matemáticos.

— jbowman

Sim jbowman está correto. Às vezes chamamos isso de densidade de X dada Θ.

— Michael R. Chernick

@ jbowman por que não postar isso como resposta? Minha única pergunta é - por que eles usariam os dois, mas presumo que isso tenha algo a ver com o contexto (o "|" é usado com "P" e o ";" com "

").

f

$f$

— Abe

Bom pensamento, Abe; provavelmente é isso.

é mais genérico, suponho.

f

$f$

— jbowman

12

Acredito que a origem disso seja o paradigma da probabilidade (embora eu não tenha verificado a atual exatidão histórica do abaixo, é uma maneira razoável de entender como aconteceu).

Digamos que em uma configuração de regressão, você teria uma distribuição: p (Y | x, beta) O que significa: a distribuição de Y se você souber (condicional) os valores x e beta.

Se você deseja estimar os betas, deseja maximizar a probabilidade: L (beta; y, x) = p (Y | x, beta) Essencialmente, agora você está olhando a expressão p (Y | x, beta) como uma função dos beta, mas fora isso, não há diferença (para expressões matemáticas corretas que você pode derivar adequadamente, isso é uma necessidade - embora, na prática, ninguém se incomode).

Em seguida, em configurações bayesianas, a diferença entre parâmetros e outras variáveis desaparece rapidamente, de modo que você começou a usar as duas notações misturadas.

Então, em essência: não há diferença real: ambos indicam a distribuição condicional da coisa à esquerda, condicional à (s) coisa (s) à direita.

— Nick Sabbe
fonte

23

é a densidade da variável aleatória no ponto , sendo o parâmetro da distribuição. é a densidade de conjunta de e no ponto e só faz sentido se é uma variável aleatória. é a distribuição condicional de dada e, novamente, só faz sentido se $f(x;\theta)$ $X$ $x$ $\theta$ $f(x,\theta)$ $X$ $\Theta$ $(x,\theta)$ $\Theta$ $f(x|\theta)$ $X$ $\Theta$ é uma variável aleatória. Isso ficará muito mais claro quando você aprofundar o livro e analisar a análise bayesiana. $\Theta$

— PeterR
fonte

Uhhhh ...

é a distribuição condicional de

dado que

faz todo sentido, mesmo que

não seja uma variável aleatória. É praticamente uma notação padrão nas estatísticas clássicas, onde

não é uma variável aleatória.

f (x | θ)

$f(x|\theta)$

x

$x$

θ

$\theta$

θ

$\theta$

θ

$\theta$

— jbowman

Uhhhh .... se você interpretar isso como significando que P [Θ = θ] = 1 (esquerda Θ é uma variável aleatória, direita θ é uma constante), então eu concordo. Caso contrário, eu não ... pois o que P [Θ = θ] significaria no denominador da definição de distribuição condicional?

— precisa saber é

Denominador? Eu posso escrever

onde

é uma distribuição Normal sem referência à Regra de Bayes.

e

são fixos. Outros também, por exemplo, ll.mit.edu/mission/communications/ist/publications/… .

x \sim f (x | μ, σ)

$x \sim f(x | \mu, \sigma)$

f

$f$

μ

$\mu$

σ

$\sigma$

— jbowman

jbowman, então qual é a definição de seu f (x | μ, σ) como uma densidade condicional quando μ e σ são números fixos (isto é, variáveis não aleatórias)?

— precisa saber é

11

A palavra "condicional", associada à notação f (X | Y), é definida como "condicional à ocorrência de algum evento aleatório". Se você estiver usando isso para significar outra coisa, como apenas "dado", como em "f (x) dado (valores específicos de) μ e σ", então é isso que a notação f (x; μ, σ) é para. Como o OP estava perguntando sobre o que significa a notação, devemos ser precisos sobre a notação na resposta.

— precisa saber é

18

$f(x;\theta)$ é o mesmo que $f(x|\theta)$ , significando simplesmente que $\theta$ é um parâmetro fixo e a função $f$ é uma função de $x$ . $f(x,\Theta)$ , OTOH, é um elemento de uma família (ou conjunto) de funções, onde os elementos são indexados por $\Theta$ . Uma distinção sutil, talvez, mas importante, esp. quando chegar a hora de estimar um parâmetro desconhecido $\theta$ com base em dados conhecidos $x$ ; nesse momento, $\theta$ varia e $x$ é fixo, resultando na "função de verossimilhança". O uso de $\mid$ é mais comum entre estatísticos, enquanto $;$ entre matemáticos.

— jbowman
fonte

11

Como

falado verbalmente? Você diz "f de x dado θ"?

f (x; θ)

$f(x;θ)$

— stackoverflowuser2010

@ stackoverflowuser2010 - sim, exatamente.

— jbowman

2

Eu encontrei em alguns vídeos do Coursera que o professor de Stanford, Andrew Ng, verbaliza o ponto-e-vírgula como "parametrizado por". Veja: class.coursera.org/ml-005/lecture/34 . Portanto, o exemplo seria falado como "f de x parametrizado por teta".

— stackoverflowuser2010

5

Dizer "dado" ou "condicional" é muito diferente (em geral) de "parametrizado". Eu odiaria se alguém visse isso e pensasse que os dois eram equivalentes. Dizer "parametrizado" é apropriado apenas quando a quantidade que está sendo condicionada for um parâmetro que indexa o pdf da variável no primeiro termo. Para duas variáveis (por exemplo, f (x; y)), o uso desse termo estaria errado.

— ATJ 17/06

2

@ MikeWilliamson - Claro, escolha uma notação em que você saiba o que tudo significa e fique com ela! Dessa forma, quando você voltar a algo que fez anteriormente, como 4 horas antes na minha experiência, não precisará entender o que quis dizer quando usou esse "|". Concordo, é chato, mas depois de um tempo você apenas observa o primeiro uso da notação e se lembra dela pelo resto do artigo / livro; as distinções não costumam ser importantes, de qualquer maneira.

— precisa saber é

9

Embora nem sempre tenha sido assim, hoje em dia é geralmente usado quando não são variáveis aleatórias (o que não quer dizer que sejam conhecidas, necessariamente). indica condicionamento nos valores de . O condicionamento é uma operação em variáveis aleatórias e, como tal, o uso dessa notação quando não são variáveis aleatórias é confuso (e tragicamente comum). $P(z; d, w)$ $d,w$ $P(z | d, w)$ $d,w$ $d, w$

Como @Nick Sabbe aponta é uma notação comum para a distribuição amostral dos dados observados . Alguns freqüentadores usarão essa notação, mas insistem que não é uma variável aleatória, que é um IMO de abuso. Mas eles não têm monopólio lá; Também vi os bayesianos fazendo isso, aplicando hiperparâmetros fixos no final dos condicionais. $p(y|X, \Theta)$ $y$ $\Theta$

— JMS
fonte

2

No segundo parágrafo, vale ressaltar que, em situações estatísticas típicas (por exemplo, ajustando um modelo de regressão),

também não é considerado uma variável aleatória, mas um conjunto de constantes conhecidas.

X

$X$

— gung - Restabelece Monica