Significado das notações de probabilidade


27

Qual é a diferença de significado entre a notação e que são comumente usadas em muitos livros e documentos?P(z;d,w)P(z|d,w)


13
f (x; θ) é o mesmo que f (x | θ), significando simplesmente que θ é um parâmetro fixo e a função f é uma função de x. f (x, Θ), OTOH, é um elemento de uma família (conjunto) de funções, onde os elementos são indexados por Θ. Uma distinção sutil, talvez, mas importante, esp. quando chegar a hora de estimar um parâmetro desconhecido θ com base em dados conhecidos x; nesse momento, θ varia e x é fixo, resultando na "função de verossimilhança". Uso de "|" é mais comum entre estatísticos ";" entre matemáticos.
jbowman

Sim jbowman está correto. Às vezes chamamos isso de densidade de X dada Θ.
Michael R. Chernick

@ jbowman por que não postar isso como resposta? Minha única pergunta é - por que eles usariam os dois, mas presumo que isso tenha algo a ver com o contexto (o "|" é usado com "P" e o ";" com " "). f
Abe

Bom pensamento, Abe; provavelmente é isso. é mais genérico, suponho. f
jbowman

Respostas:


12

Acredito que a origem disso seja o paradigma da probabilidade (embora eu não tenha verificado a atual exatidão histórica do abaixo, é uma maneira razoável de entender como aconteceu).

Digamos que em uma configuração de regressão, você teria uma distribuição: p (Y | x, beta) O que significa: a distribuição de Y se você souber (condicional) os valores x e beta.

Se você deseja estimar os betas, deseja maximizar a probabilidade: L (beta; y, x) = p (Y | x, beta) Essencialmente, agora você está olhando a expressão p (Y | x, beta) como uma função dos beta, mas fora isso, não há diferença (para expressões matemáticas corretas que você pode derivar adequadamente, isso é uma necessidade - embora, na prática, ninguém se incomode).

Em seguida, em configurações bayesianas, a diferença entre parâmetros e outras variáveis ​​desaparece rapidamente, de modo que você começou a usar as duas notações misturadas.

Então, em essência: não há diferença real: ambos indicam a distribuição condicional da coisa à esquerda, condicional à (s) coisa (s) à direita.


23

é a densidade da variável aleatória X no ponto x , sendo θ o parâmetro da distribuição. f ( x , θ ) é a densidade de conjunta de X e Θ no ponto ( x , θ ) e só faz sentido se Θ é uma variável aleatória. f ( x | θ ) é a distribuição condicional de X dada Θ e, novamente, só faz sentido sef(x;θ)Xxθf(x,θ)XΘ(x,θ)Θf(x|θ)XΘ é uma variável aleatória. Isso ficará muito mais claro quando você aprofundar o livro e analisar a análise bayesiana.Θ


Uhhhh ... é a distribuição condicional de x, dado que θ faz todo sentido, mesmo que θ não seja uma variável aleatória. É praticamente uma notação padrão nas estatísticas clássicas, onde θ não é uma variável aleatória. f(x|θ)xθθθ
jbowman

Uhhhh .... se você interpretar isso como significando que P [Θ = θ] = 1 (esquerda Θ é uma variável aleatória, direita θ é uma constante), então eu concordo. Caso contrário, eu não ... pois o que P [Θ = θ] significaria no denominador da definição de distribuição condicional?
precisa saber é

Denominador? Eu posso escrever onde f é uma distribuição Normal sem referência à Regra de Bayes. μ e σ são fixos. Outros também, por exemplo, ll.mit.edu/mission/communications/ist/publications/… . xf(x|μ,σ)fμσ
jbowman

jbowman, então qual é a definição de seu f (x | μ, σ) como uma densidade condicional quando μ e σ são números fixos (isto é, variáveis ​​não aleatórias)?
precisa saber é

11
A palavra "condicional", associada à notação f (X | Y), é definida como "condicional à ocorrência de algum evento aleatório". Se você estiver usando isso para significar outra coisa, como apenas "dado", como em "f (x) dado (valores específicos de) μ e σ", então é isso que a notação f (x; μ, σ) é para. Como o OP estava perguntando sobre o que significa a notação, devemos ser precisos sobre a notação na resposta.
precisa saber é

18

f(x;θ) é o mesmo quef(x|θ) , significando simplesmente queθ é um parâmetro fixo e a funçãof é uma função dex . f(x,Θ) , OTOH, é um elemento de uma família (ou conjunto) de funções, onde os elementos são indexados porΘ . Uma distinção sutil, talvez, mas importante, esp. quando chegar a hora de estimar um parâmetro desconhecidoθ com base em dados conhecidosx ; nesse momento,θ varia exé fixo, resultando na "função de verossimilhança". O uso de é mais comum entre estatísticos, enquanto ;entre matemáticos.


11
Como falado verbalmente? Você diz "f de x dado θ"? f(x;θ)
stackoverflowuser2010

@ stackoverflowuser2010 - sim, exatamente.
jbowman

2
Eu encontrei em alguns vídeos do Coursera que o professor de Stanford, Andrew Ng, verbaliza o ponto-e-vírgula como "parametrizado por". Veja: class.coursera.org/ml-005/lecture/34 . Portanto, o exemplo seria falado como "f de x parametrizado por teta".
stackoverflowuser2010

5
Dizer "dado" ou "condicional" é muito diferente (em geral) de "parametrizado". Eu odiaria se alguém visse isso e pensasse que os dois eram equivalentes. Dizer "parametrizado" é apropriado apenas quando a quantidade que está sendo condicionada for um parâmetro que indexa o pdf da variável no primeiro termo. Para duas variáveis ​​(por exemplo, f (x; y)), o uso desse termo estaria errado.
ATJ 17/06

2
@ MikeWilliamson - Claro, escolha uma notação em que você saiba o que tudo significa e fique com ela! Dessa forma, quando você voltar a algo que fez anteriormente, como 4 horas antes na minha experiência, não precisará entender o que quis dizer quando usou esse "|". Concordo, é chato, mas depois de um tempo você apenas observa o primeiro uso da notação e se lembra dela pelo resto do artigo / livro; as distinções não costumam ser importantes, de qualquer maneira.
precisa saber é

9

Embora nem sempre tenha sido assim, hoje em dia é geralmente usado quando d , w não são variáveis ​​aleatórias (o que não quer dizer que sejam conhecidas, necessariamente). P ( z | d , w ) indica condicionamento nos valores de d , w . O condicionamento é uma operação em variáveis ​​aleatórias e, como tal, o uso dessa notação quando d , w não são variáveis ​​aleatórias é confuso (e tragicamente comum).P(z;d,W)d,WP(z|d,W)d,Wd,W

Como @Nick Sabbe aponta é uma notação comum para a distribuição amostral dos dados observados y . Alguns freqüentadores usarão essa notação, mas insistem que Θ não é uma variável aleatória, que é um IMO de abuso. Mas eles não têm monopólio lá; Também vi os bayesianos fazendo isso, aplicando hiperparâmetros fixos no final dos condicionais.p(y|X,Θ)yΘ


2
No segundo parágrafo, vale ressaltar que, em situações estatísticas típicas (por exemplo, ajustando um modelo de regressão), também não é considerado uma variável aleatória, mas um conjunto de constantes conhecidas. X
gung - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.