Relação entre distribuições binomial e beta

27

Sou mais programador do que estatístico, então espero que essa pergunta não seja muito ingênua.

Isso acontece na execução de programas de amostragem em momentos aleatórios. Se eu coletar N = 10 amostras em tempo aleatório do estado do programa, eu poderia ver a função Foo sendo executada em, por exemplo, I = 3 dessas amostras. Estou interessado no que isso me diz sobre a fração de tempo real F que Foo está em execução.

Entendo que sou distribuído binomialmente com F * N médio. Eu também sei que, dado I e N, F segue uma distribuição beta. Na verdade, eu verifiquei por programa a relação entre essas duas distribuições, que é

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

O problema é que não tenho uma sensação intuitiva do relacionamento. Não consigo "imaginar" por que funciona.

Edição: Todas as respostas foram desafiadoras, especialmente @ whuber's, que eu ainda preciso gritar, mas trazer estatísticas de ordem foi muito útil. No entanto, percebi que deveria ter feito uma pergunta mais básica: dados I e N, qual é a distribuição de F? Todo mundo apontou que é Beta, que eu sabia. Finalmente descobri na Wikipedia ( Conjugado anterior ) que parece ser Beta(I+1, N-I+1). Depois de explorá-lo com um programa, parece ser a resposta certa. Então, eu gostaria de saber se estou errado. E ainda estou confuso sobre a relação entre os dois cdfs mostrados acima, por que eles somam 1 e se eles têm alguma coisa a ver com o que eu realmente queria saber.

binomial beta-binomial beta-distribution

— Mike Dunlavey
fonte

Se "o que você realmente queria saber" é "a fração real de tempo que Foo está em execução", você está perguntando sobre um intervalo de confiança binomial ou um intervalo credível (bayesiano) binomial.

— whuber

@whuber: Bem, eu uso o método de pausa aleatória de ajuste de desempenho há mais de 3 décadas, e algumas outras pessoas também o descobriram. Eu disse às pessoas que, se alguma condição for verdadeira em 2 ou mais amostras em tempo aleatório, sua remoção economizaria uma boa fração de tempo. Quão boa é uma fração sobre a qual tentei ser explícita, supondo que não conheçamos um Bayesiano antes. Aqui está a chama geral: stackoverflow.com/questions/375913/... e stackoverflow.com/questions/1777556/alternatives-to-gprof/...

— Mike Dunlavey

1

Boa ideia. O pressuposto estatístico é que a interrupção é independente do estado de execução, que é uma hipótese razoável. Um intervalo de confiança binomial é uma boa ferramenta a ser usada para representar a incerteza. (Também pode ser uma revelação: na sua situação de 3/10, um IC de 95% simétrico nos dois lados para a verdadeira probabilidade é de [6,7%, 65,2%]. Em uma situação de 2/10, o intervalo é de [2,5 55,6%]. Essas são amplas faixas! Mesmo com 2/3, o limite inferior ainda é inferior a 10%. A lição aqui é que algo bastante raro pode acontecer duas vezes.)

— whuber

@ whuber: Obrigado. Você está certo. Algo mais útil é o valor esperado. No que diz respeito aos anteriores, aponto que, se você vir algo apenas uma vez, isso não lhe diz muito, a menos que você saiba que o programa está em um loop infinito (ou extremamente longo).

— precisa saber é o seguinte

Acho que todas as respostas e comentários certamente foram esclarecedores e corretos, mas ninguém realmente tocou na interessante igualdade que @MikeDunlavey colocou em seu post original. Essa igualdade pode ser encontrada na wikipedia Beta en.wikipedia.org/wiki/Beta_function#Incomplete_beta_function, mas não há descrição de por que esse é o caso, apenas declarado como uma propriedade.

— bdeonovic 03/04

27

Considere as estatísticas da ordem de empates independentes de uma distribuição uniforme. Como as estatísticas dos pedidos têm distribuições Beta , a chance de que não exceda é dada pela integral Beta $x_{[0]} \le x_{[1]} \le \cdots \le x_{[n]}$ $n+1$ $x_{[k]}$ $p$

Pr [x_{[k]} \leq p] = \frac{1}{B (k + 1, n - k + 1)} \int_{0}^{p} x^{k} (1 - x)^{n - k} d x .

$\Pr[x_{[k]} \le p] = \frac{1}{B(k+1, n-k+1)} \int_0^p{x^k(1-x)^{n-k}dx}.$

(Por que isso? Aqui está uma demonstração não rigorosa, mas memorável. A chance de que esteja entre e é a chance de que dentre valores uniformes, deles esteja entre e , pelo menos um deles está entre e , e o restante está entre e Para a primeira ordem no infinitesimal , precisamos considerar apenas o caso em que exatamente um valor (ou seja, ) fica entre e e, portanto, $x_{[k]}$ $p$ $p + dp$ $n+1$ $k$ $0$ $p$ $p$ $p + dp$ $p + dp$ $1$ $dp$ $x_{[k]}$ $p$ $p + dp$ $n - k$ valores excedem . Como todos os valores são independentes e uniformes, essa probabilidade é proporcional a . Para a primeira ordem em isso é igual a , precisamente o integrando da distribuição Beta. O termo pode ser calculado diretamente a partir desse argumento como o coeficiente multinomial ou derivado indiretamente como a constante de normalização da integral.) $p + dp$ $p^k (dp) (1 - p - dp)^{n-k}$ $dp$ $p^k(1-p)^{n-k}dp$ $\frac{1}{B(k+1, n-k+1)}$ ${n+1}\choose{k,1, n-k}$

Por definição, o evento é que o valor de não excede . Equivalentemente, pelo menos dos valores não excede : essa afirmação simples (e espero óbvia) fornece a intuição que você procura. A probabilidade da afirmação equivalente é dada pela distribuição binomial, $x_{[k]} \le p$ $k+1^\text{st}$ $p$ $k+1$ $p$

Pr [at least k + 1 of the x_{i} \leq p] = \sum_{j = k + 1}^{n + 1} (\binom{n + 1}{j}) p^{j} (1 - p)^{n + 1 - j} .

$\Pr[\text{at least }k+1\text{ of the }x_i \le p] = \sum_{j=k+1}^{n+1}{{n+1}\choose{j}} p^j (1-p)^{n+1-j}.$

Em resumo , a integral Beta divide o cálculo de um evento em uma série de cálculos: encontrar pelo menos valores de no intervalo , cuja probabilidade normalmente calcularíamos com um cd binomial, é dividida mutuamente casos exclusivos em que exatamente os valores de estão no intervalo e 1 está no intervalo para todos os possíveis , , e é um comprimento infinitesimal. A soma de todas essas "janelas" - ou seja, integrando - deve fornecer a mesma probabilidade do CD binomial. $k+1$ $[0, p]$ $k$ $[0, x]$ $[x, x+dx]$ $x$ $0 \le x \lt p$ $dx$ $[x, x+dx]$

texto alternativo

— whuber
fonte

Agradeço o esforço. Vou ter que realmente estudar isso porque não é minha "língua nativa". Além disso, estou vendo muitos cifrões e formatação. Existe algo que eu não sei que faz com que pareça matemática real?

— Mike Dunlavey

O que aconteceu? De repente, a matemática apareceu e a digitação aqui ficou bem lenta.

— Mike Dunlavey

@ Mike Consulte meta.stats.stackexchange.com/q/218/919 .

— whuber

Revisei a pergunta, se você quiser dar uma olhada. Obrigado.

— Mike Dunlavey

1

É um pouco tarde, mas finalmente tive tempo de me sentar e recriar seu argumento. A chave foi "coeficiente multinomial". Eu tentei descobrir isso usando coeficientes binomiais simples e antigos e estava ficando empolgado. Obrigado novamente por uma boa resposta.

— precisa saber é o seguinte

12

Veja o pdf do Binomial como uma função de : e o pdf do Beta como uma função de : Você provavelmente pode ver que, com uma escolha apropriada (inteira) para e são iguais. Tanto quanto posso dizer, é tudo o que existe nessa relação: a maneira como entra no binômio pdf é chamada de distribuição Beta. $x$

f (x) = (\binom{n}{x}) p^{x} (1 - p)^{n - x}

$f(x) = {n\choose{x}}p^{x}(1-p)^{n-x}$

p

$p$

g (p) = \frac{Γ (a + b)}{Γ (a) Γ (b)} p^{a - 1} (1 - p)^{b - 1}

$g(p)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}p^{a-1}(1-p)^{b-1}$

a

$a$

b

$b$

p

$p$

— Aniko
fonte

Eu sei que essas parecem quase iguais, mas se eu substituir y por nx, e se eu pegar o pdf Beta e substituir x por a-1 e y por b-1, recebo um fator extra de (x + y + 1), ou n + 1. ou seja (x + y + 1)! / x! / y! * p ^ x * q ^ y. Isso parece ser o suficiente para me jogar fora.

— Mike Dunlavey

1

Talvez alguém entre em contato com uma resposta completa, mas, em uma explicação "intuitiva", sempre podemos desviar manualmente as constantes (como ) que não dependem das variáveis de interesse ( e ), mas são necessárias para faça o pdf adicionar / integrar a 1. Sinta-se à vontade para substituir os sinais de "igualdade" por "proporcional a".

n + 1

$n+1$

x

$x$

p

$p$

— Aniko

Bom ponto. Eu acho que estou chegando perto de um entendimento. Eu ainda estou tentando ser capaz de dizer o que x informa sobre a distribuição p, e por que essas duas cdfs somar 1.

— Mike Dunlavey

1

Eu tenho uma visão diferente das explicações "intuitivas". Em alguns casos, não nos importamos muito com constantes, mas, neste caso, o cerne da questão é ver por que um n + 1 aparece e não um n. Se você não entende isso, sua "intuição" está incorreta.

— whuber

Revisei a pergunta, se você quiser dar uma olhada. Obrigado.

— Mike Dunlavey

5

Como você observou, a distribuição Beta descreve a distribuição da probabilidade julgamento parâmetro , enquanto a distribuição binomial descreve a distribuição do resultado do parâmetro . Reescrevendo sua pergunta, o que você perguntou foi sobre por que Ou seja, a probabilidade de que a observação mais um seja maior que a expectativa da observação é a mesma probabilidade de que a observação mais uma é maior que a expectativa da observação. $F$ $I$

P (F \leq \frac{i + 1}{n}) + P (I \leq f n - 1) = 1

$P(F \le \frac {i+1} n)+P(I \le fn-1)=1$

P (F n \leq i + 1) + P (I + 1 \leq f n) = 1

$P(Fn \le i+1)+P(I+1 \le fn)=1$

P (F n \leq i + 1) = P (f n < I + 1)

$P(Fn \le i+1)=P(fn<I+1)$

Admito que isso pode não ajudar a intuir a formulação original do problema, mas talvez ajude a pelo menos ver como as duas distribuições usam o mesmo modelo subjacente de repetidos ensaios de Bernoulli para descrever o comportamento de diferentes parâmetros.

— sesqu
fonte

Agradeço sua opinião sobre isso. Todas as respostas estão me ajudando a pensar sobre a pergunta e possivelmente entender melhor o que estou perguntando.

— Mike Dunlavey

Revisei a pergunta, se você quiser dar uma olhada. Obrigado.

— Mike Dunlavey

1

Em relação à sua revisão: Sim, , desde que seus intervalos de amostragem sejam longos o suficiente para que cada observação seja independente e identicamente distribuída. Observe que se você deseja ser bayesiano e especificar uma distribuição anterior não uniforme para o que você espera que a proporção real seja, você pode adicionar algo mais aos dois parâmetros.

F \sim B e t a (I + 1, N - I + 1)

$F\sim Beta(I+1,N-I+1)$

— sesqu

@ sesqu, sua resposta poderia estar de alguma forma relacionada à minha pergunta aqui: stats.stackexchange.com/questions/147978/… ? Eu apreciaria seus pensamentos sobre isso.

— Vicent

1

Em terras bayesianas, a distribuição Beta é o conjugado anterior para o parâmetro p da distribuição Binomial.

— Ian Fiske
fonte

2

Sim, mas por que esse é o caso?

— vonjd 11/08/19

1

Não posso comentar sobre outras respostas, por isso tenho que criar minha própria resposta.

Posterior = C * Probabilidade * Anterior (C é uma constante que torna o Posterior integrado a 1)

Dado um modelo que usa distribuição binomial por probabilidade e distribuição beta por prior. O produto dos dois que gera o Posterior também é uma distribuição Beta. Como o anterior e o posterior são ambos beta e, portanto, são distribuições conjugadas . o Prior (a Beta) é chamado de conjugado anterior para a probabilidade (um Binomial). Por exemplo, se você multiplicar um Beta por um Normal, o Posterior não será mais um Beta. Em resumo, Beta e Binomial são duas distribuições usadas com frequência na inferência bayesiana. Beta é conjugado antes do binômio, mas as duas distribuições não são um subconjunto ou superconjunto da outra.

A idéia-chave da inferência bayesiana é que estamos tratando o parâmetro p como uma variável aleatória que varia de [0,1], o que é contrário à abordagem de inferência freqüencialista, na qual estamos tratando o parâmetro p como fixo. Se você observar atentamente as propriedades da distribuição Beta, verá que a Média e o Modo são determinados apenas por e irrelevantes para o parâmetro p $\alpha$ $\beta$ . Isso, juntamente com sua flexibilidade, é o motivo pelo qual o Beta é geralmente usado como Prior.

— John Li
fonte

1

Resumo: Costuma-se dizer que a distribuição Beta é uma distribuição nas distribuições! Mas o que são meios?

Essencialmente significa que você pode corrigir pensar em como uma função de . O que o cálculo abaixo diz é que o valor de aumenta de para quando você ajusta de para . A taxa crescente em cada é exatamente naquele . $n,k$ $\mathbb P[Bin(n,p)\geqslant k]$ $p$ $\mathbb P[Bin(n,p)\geqslant k]$ $0$ $1$ $p$ $0$ $1$ $p$ $\beta(k,n-k+1)$ $p$

Deixe denotar uma variável aleatória Binomial com amostras e a probabilidade de sucesso . Usando álgebra básica, temos $Bin(n,p)$ $n$ $p$

\frac{d}{d p} P [B Eu n (n, p) = Eu] = n (P [B Eu n (n - 1, p) = Eu - 1] - P [B Eu n (n - 1, p) = Eu]) .

$\frac d{dp}\mathbb P[Bin(n,p)=i]=n\Big(\mathbb P[Bin(n-1,p)=i-1]-\mathbb P[Bin(n-1,p)=i]\Big).$

Ele também tem uma boa prova combinatória, pense nisso como um exercício!

Então nós temos:

\frac{d}{d p} P [B Eu n (n, p) ⩾ k] = \frac{d}{d p} \sum_{Eu = k}^{n} P [B Eu n (n, p) = Eu] = n (\sum_{Eu = k}^{n} P [B Eu n (n - 1, p) = Eu - 1] - P [B Eu n (n - 1, p) = Eu])

$\frac d{dp}\mathbb P[Bin(n,p)\geqslant k]=\frac d{dp}\sum_{i=k}^{n}\mathbb P[Bin(n,p)=i]=n\Big(\sum_{i=k}^{n}\mathbb P[Bin(n-1,p)=i-1]-\mathbb P[Bin(n-1,p)=i]\Big)$ que é uma série telescópica e pode ser simplificada como

\frac{d}{d p} P [B Eu n (n, p) ⩾ k] = n P [B Eu n (n - 1, p) = k - 1] = \frac{n!}{(k - 1)! (n - k)!} p^{k - 1} (1 - p)^{n - k} = β (k, n - k + 1) .

$\frac d{dp}\mathbb P[Bin(n,p)\geqslant k]=n\mathbb P[Bin(n-1,p)=k-1]=\frac{n!}{(k-1)!(n-k)!}p^{k-1}(1-p)^{n-k}=\beta(k,n-k+1).$

Observação Para ver uma versão interativa da trama, veja isso . Você pode baixar o notebook ou apenas usar o link Binder.

— MR_BD
fonte