Qual é o na distribuição de Bernoulli?

Na teoria bayesiana da probabilidade, probabilidade é nossa expressão do conhecimento sobre uma determinada coisa, não uma propriedade dessa coisa. No entanto, sempre vejo as pessoas tratarem como um parâmetro que precisa ser estimado. Eles configuram um prior para , geralmente na forma de uma função beta e, em seguida, atualizam-no à medida que as "realizações" dessa variável são recebidas. $p$ $p$

Até o grande Jaynes bayesiano às vezes dá a impressão de que ele está "estimando as probabilidades" ou procurando o que melhor "ajusta os dados": $p$

Agora, queremos levar em consideração apenas as hipóteses pertencentes à 'classe Bernoulli' na qual existem resultados possíveis em cada tentativa e as probabilidades do em repetições sucessivas do experimento são consideradas independentes e estacionárias; $B_m$ $m$ $A_k$

Teoria da Probabilidade, ET Jaynes, página 297

Isso me deixa confuso, porque não é uma probabilidade , pois é uma propriedade da variável aleatória e não é uma frequência , pois a variável representa um único evento. $p$

— Martin Drozdik
fonte

Na seção citada, Jaynes está de fato fornecendo um tratamento bayesiano da interpretação e design para a estimativa de

p

$p$ ? Mesmo um grande bayesiano pode conceber escrever um livro chamado "Teoria da Probabilidade" que lida com a interpretação freqüentista e bayesiana da probabilidade.

— Adamo

Se quisermos ser epistemiólogos estritos,

p

$p$ é uma crença para o bayesiano: algo que não é fixo, mas tem incerteza que pode ser descrita com uma distribuição de probabilidade. Se precisamos atualizar nossa crença, realizamos um experimento. Isoladamente, o experimento produz uma probabilidade e, consequentemente, um MLE que possui todas as interpretações freqüentistas, mas, quando atualiza o anterior, os atributos do posterior podem ser bem diferentes. O modo Posterior pode não ser o MLE, a mediana posterior pode não ser a estimativa mediana imparcial.

— Adamo

Apenas uma ressalva, a interpretação freqüentista do experimento é aceitável para os bayesianos se eles acreditam que a replicabilidade infinita e independente seja aproximadamente factível.

— Adamo

Você está interessado especificamente na perspectiva bayesiana ou apenas em geral? De qualquer jeito,

p

$p$ é um parâmetro, nada mais. O que importa se você chamar isso de probabilidade ou algo mais? Como você disse, não é um PDF, apenas uma realização ou a saída de um PDF, se desejar.

— Digio 8/03/19

Eu acho que você está misturando diferentes conceitos aqui. A natureza do parâmetro

p

$p$ (a realização de um rv uniforme discreto) deve ser independente da estrutura de inferência, que visualizará esse parâmetro como variável fixa ou aleatória. Então, o que é um Bernoulli rv é novamente um conceito diferente, não muito difícil de explicar o IMHO, mas certamente não diretamente relacionado à natureza do

p

$p$ .

— Digio 8/03/19

Respostas:

Na teoria bayesiana da probabilidade, probabilidade é nossa expressão do conhecimento sobre uma determinada coisa, não uma propriedade dessa coisa. No entanto, eu sempre vejo as pessoas tratando $p$ como um parâmetro que precisa ser estimado. Eles montaram um prior para $p$ , geralmente na forma de uma função beta e, em seguida, atualize-a conforme a "realização" dessa variável.

Isso é irrelevante. Não tem nada a ver com a interpretação do significado de probabilidade, uma vez que não se trata de filosofia, mas de objeto matemático bem definido. Você vê pessoas discutindo a estimativa do valor de $p$ porque você olha para os manuais de estatística e estatística é sobre estimar coisas, mas $p$ é um parâmetro de distribuição, pode ser conhecido ou desconhecido.

E se $X$ é uma variável aleatória de Bernoulli com probabilidade de "sucesso" $p$ , então $\Pr(X=1) = p$ por definição. assim $p$ é um parâmetro dessa distribuição, mas também é probabilidade de "sucesso".

Isso me deixa confuso, porque $p$ não é uma probabilidade , pois é uma propriedade da variável aleatória e não é uma frequência , pois a variável representa um único evento.

Sim, a variável aleatória descreve algum "evento único"; portanto, se você vai jogar uma moeda, o resultado possível é uma variável aleatória porque é incerta. Depois de jogar a moeda e conhecer o resultado, não é mais aleatório, o resultado é certo. Quanto à probabilidade, no cenário frequentista, você considera o cenário hipotético em que repetiria o experimento de lançamento de moedas inúmeras vezes e a probabilidade seria igual à proporção de cabeças entre essas repetições. No cenário subjetivo, bayesiano , a probabilidade é uma medida de quanto você acredita que vai observar as cabeças.

O exposto acima é, no entanto, irrelevante para questionar o que $p$ é. É um parâmetro que também é igual à probabilidade de "sucesso". A questão de como você interpreta a probabilidade e o que isso significa é uma pergunta diferente.

— Tim
fonte

$p$ é um parâmetro que especifica a "probabilidade de sucesso", para a qual temos distribuições de probabilidade anteriores e posteriores.

Por exemplo, podemos ter uma moeda para a qual não temos certeza se é justa ( $p=0.5$ ) ou não ( $p\neq 0.5$ ) Mesmo assim, a justiça, ou a falta dela, é uma propriedade da moeda. Por acaso não temos certeza sobre essa propriedade da moeda.

Então, por exemplo, especificamos uma distribuição beta prévia como uma distribuição de probabilidade anterior sobre as possíveis probabilidades de sucesso em $[0,1]$ . Esse prior pode, por exemplo, ser inspirado ao olhar para a moeda, avaliando se ela "parece" justa. Se parecer justo, estaremos inclinados a especificar um anterior com muita massa de probabilidade em torno de $p=0.5$ .

Em outros casos, digamos, ao formar uma crença prévia sobre a probabilidade de um jogador de futebol ser bem-sucedido em sua próxima penalidade - também um resultado de Bernoulli, seja um gol ou não - estaremos inclinados a colocar mais probabilidade em massa $p$ cerca de 0,8, porque jogadores de futebol profissional pontuam na maioria dos pênaltis.

Em seguida, jogamos a moeda / observamos o jogador algumas vezes e resumimos as informações na função de probabilidade, para obter a atualização, ou seja, a posterior.

— Christoph Hanck
fonte

Obrigado pela sua resposta gentil. No entanto, na primeira frase, você diz que p é uma probabilidade. Isso, até onde eu sei, está em conflito com o restante de sua resposta, onde você trata p como uma propriedade do mundo físico (falando sobre o conhecimento sobre p, anteriores para p, ...). Se eu entendo a teoria da probabilidade bayesiana corretamente, não há conceito de "probabilidade de probabilidade".

— Martin Drozdik 8/03/19

Lamento não ter explicado minha opinião de maneira convincente, mas não vejo o problema. É uma probabilidade que pode ser interpretada no sentido "freqüentista" - se você jogar a moeda um número infinito de vezes, ela mostrará as cabeças

p * 100 %

$p*100\%$ do tempo em que

p

$p$ é a probabilidade de sucesso.

— Christoph Hanck 8/03/19

Especialmente no segundo parágrafo, você menciona que a justiça é uma propriedade da moeda. Eu discordaria. Talvez a localização do centro de massa seja uma propriedade da moeda, mas a probabilidade esteja em sua mente. Você não pode ter certeza se p = 0,5 ou não. Nesse paradigma de raciocínio, você simplesmente tem um p.

— Martin Drozdik 8/03/19

O centro da massa afetará a frequência com que as cabeças aparecerão, de modo que a característica física da moeda afetará o parâmetro de interesse.

— Christoph Hanck 8/03/19

Eu acho que há um pequeno truque sendo feito aqui. Embora os bayesianos tenham uma certa definição de probabilidade, eles também sabem que os frequentistas existem. Os bayesianos podem reconhecer que uma moeda tem uma propriedade,

p

$p$ , que pode ser indicado da seguinte forma: "a propriedade da moeda

p

$p$ é o que um freqüentista mediria como a 'probabilidade' de pousar sobre as cabeças se tivessem infinitas tentativas com a moeda ".

— Bridgeburners 08/03/19

Para uma variável aleatória $X \sim \operatorname{Bernoulli}(p)$ definido em um espaço de probabilidade $(\Omega, \mathcal{F}, P)$ , o parâmetro $p$ (um número) é a probabilidade de um determinado evento, a saber, o evento $\{X = 1\}$ . Isso é,

p = P (X = 1) .

$p = P(X = 1).$ O número único

p

$p$ determina completamente a distribuição de

X

$X$ já que para qualquer conjunto Borel

B \subseteq R

$B \subseteq \mathbb{R}$ temos

\begin{aligned} P (X \in B) & = 1_{B} (0) P (X = 0) + 1_{B} (1) P (X = 1) \\ = (1 - p) 1_{B} (0) + p 1_{B} (1) . \end{aligned}

$\begin{aligned} P(X \in B) &= \mathbf{1}_B(0)P(X = 0) + \mathbf{1}_B(1) P(X = 1) \\ &= (1 - p) \mathbf{1}_B(0) + p \mathbf{1}_B(1). \end{aligned}$ (Aqui

1_{B}

$\mathbf{1}_B$ é a função indicadora de

B

$B$ .) É por isso que a família de distribuições de Bernoulli é parametrizada pelo intervalo

[0, 1]

$[0, 1]$ . Esse fato é independente de uma interpretação freqüentista ou bayesiana da estatística: é apenas um fato de probabilidade.

Se estamos sendo bayesianos, queremos o parâmetro $p$ ser uma variável aleatória em si com alguma distribuição anterior. Formalmente, podemos dizer que nosso parâmetro é uma variável aleatória $\Pi$ suportado em $[0, 1]$ e nós temos

X ∣ Π \sim Bernoulli (Π),

$X \mid \Pi \sim \operatorname{Bernoulli}(\Pi),$ o que significa que

\begin{aligned} P (X = 1 ∣ Π) & = Π, & P (X = 0 ∣ Π) & = 1 - Π \end{aligned}

$\begin{aligned} P(X = 1 \mid \Pi) &= \Pi, & P(X = 0 \mid \Pi) &= 1 - \Pi \end{aligned}$ quase certamente (ou

\begin{aligned} P (X = 1 ∣ Π = p) & = p, & P (X = 0 ∣ Π = p) & = 1 - p \end{aligned}

$\begin{aligned} P(X = 1 \mid \Pi = p) &= p, & P(X = 0 \mid \Pi = p) &= 1 - p \end{aligned}$ para qualquer

p \in [0, 1]

$p \in [0, 1]$ ) Nesse caso, o parâmetro

Π

$\Pi$ (uma variável aleatória) é a probabilidade condicional do evento

{X = 1}

$\{X = 1\}$ dado

Π

$\Pi$ . Essa probabilidade condicional, juntamente com a distribuição de

Π

$\Pi$ (a distribuição anterior), determina completamente a distribuição de

X

$X$ Desde a

\begin{aligned} P (X \in B) & = E [P (X \in B ∣ Π)] \\ = E [1_{B} (0) P (X = 0 ∣ Π) + 1_{B} (1) P (X = 1 ∣ Π)] \\ = E [(1 - Π) 1_{B} (0) + Π 1_{B} (1)] \\ = (1 - E [Π]) 1_{B} (0) + E [Π] 1_{B} (1) \end{aligned}

$\begin{aligned} P(X \in B) &= E[P(X \in B \mid \Pi)] \\ &= E[\mathbf{1}_B(0)P(X = 0 \mid \Pi) + \mathbf{1}_B(1) P(X = 1 \mid \Pi)] \\ &= E[(1 - \Pi) \mathbf{1}_B(0) + \Pi \mathbf{1}_B(1)] \\ &= (1 - E[\Pi]) \mathbf{1}_B(0) + E[\Pi] \mathbf{1}_B(1) \end{aligned}$ para qualquer conjunto Borel

B \subseteq R

$B \subseteq \mathbb{R}$ .

De qualquer forma, frequentista ou bayesiano, o parâmetro usual dos dados de Bernoulli é a probabilidade (marginal ou condicional) de algum evento.

— Artem Mavrin
fonte