Como implementar a função hipergeométrica generalizada para usar em beta-binomial cdf, sf, ppf?

Estou escrevendo uma subclasse scipy.stats._distn_infrastructure.rv_discretepara a distribuição binomial beta cujo PMF é

P (X = k ∣ N, α, β) (\binom{N}{k}) \frac{B (k + α, N - k + β)}{B (α, β)},

$P(X=k \mid N, \alpha, \beta){N \choose k} \frac{\mathrm{B}(k+\alpha,N-k+\beta)}{\mathrm{B}(\alpha,\beta)},$

onde $\mathrm{B}$ é a função Beta. Minha implementação atual do CDF e SF (função de sobrevivência, equivalente a 1 - CDF) é imprecisa; a estratégia que empreguei calcula o valor esperado do binomial cdf em relação ao componente beta:

P_{B B} (X \leq k ∣ N, α, β) = E_{p} [P_{B i n o m} (X \leq k ∣ N, p)],

$P_{BB}(X \le k \mid N, \alpha, \beta) = E_p\left[P_{Binom}(X \le k \mid N, p)\right],$ que

p \sim B e t a (α, β)

$p \sim \mathrm{Beta}(\alpha, \beta)$ . Consigo isso usando o scipy.stats.beta.expectmétodo, que não é vetorizado de forma inata (ele trava em qualquer coisa que não seja uma matriz float ou 0d).

O PPF é ainda pior - é um loop de força bruta sobre os números inteiros $k=0, \ldots, N$ tal que

P (X \leq k ∣ N, α, β) \leq q .

$P(X\le k \mid N, \alpha, \beta) \le q.$

Segundo a Wikipedia, a função de sobrevivência para a distribuição beta-binomial é

P (X > k ∣ N, α, β) = \frac{B (β + n - k - 1, α + k + 1)_{3} F_{2} (a, b; k)}{B (α, β) B (n - k, k + 2) (n + 1)},

$P(X > k \mid N, \alpha, \beta) = \frac{\mathrm{B}(\beta+n-k-1,\alpha+k+1)_3F_2(\boldsymbol{a},\boldsymbol{b};k)} {\mathrm{B}(\alpha,\beta)\mathrm{B}(n-k,k+2) (n+1)},$

onde é a função hipergeométrica generalizada. Existe uma maneira eficiente de calcular isso em Python, para que eu possa remover a referência ? Além disso, como eu inverteria essa função para resolver dado ? ${}_3F_2$ beta.expect $k$ $q=P(X \le k\mid N, \alpha, \beta)$

— Scott Norton
fonte

Talvez seja útil saber que, para os valores de que (implicitamente) aparecem aqui, é um polinômio em (de grau , ). Não simplifica em geral.

a, b

$\boldsymbol{a},\boldsymbol{b}$

_{3} F_{2} (;; z)

$_3F_2(;;z)$

z

$z$

n - k - 1

$n-k-1$

- 1 \leq k \leq n - 1

$-1\le k \le n-1$

— whuber

Você encontrou alguma solução para sua pergunta? Se sim, talvez você queira compartilhá-lo como resposta à sua pergunta?

— Tim

Isso não responde diretamente à sua pergunta, mas se você estiver pensando em estimar a função de distribuição cumulativa do binômio beta com mais eficiência, poderá usar um algoritmo recursivo que é um pouco mais eficiente que a implementação ingênua.

Observe que a função massa de probabilidade da distribuição beta-binomial

f (x) = (\binom{n}{x}) \frac{B (x + α, n - x + β)}{B (α, β)}

$f(x) = {n \choose x} \frac{\mathrm{B}(x+\alpha, n-x+\beta)}{\mathrm{B}(\alpha, \beta)}$

pode ser reescrito se você lembrar que ee que , para que se torne $\mathrm{B}(x,y)=\tfrac{\Gamma(x)\,\Gamma(y)}{\Gamma(x+y)}$ $\Gamma(x) = (x-1)!$ ${n \choose k} = \prod_{i=1}^k \tfrac{n+1-i}{i}$

f (x) = (\prod_{i = 1}^{x} \frac{n + 1 - i}{i}) \frac{\frac{(α + x - 1)! (β + n - x - 1)!}{(α + β + n - 1)!}}{B (α, β)}

$f(x) = \left( \prod_{i=1}^x \frac{n+1-i}{i} \right) \frac{\frac{(\alpha+x-1)!\,(\beta+n-x-1)!}{(\alpha+\beta+n-1)!}}{\mathrm{B}(\alpha,\beta)}$

Isso faz com que a atualização de para fácil $x$ $x+1$

f (x + 1) = (\prod_{i = 1}^{x} \frac{n + 1 - i}{i}) \frac{n + 1 - x + 1}{x + 1} \frac{\frac{(α + x - 1)! (α + x) (β + n - x - 1)! (β + n - x)^{- 1}}{(α + β + n - 1)! (α + β + n)}}{B (α, β)}

$f(x\color{red}{+1}) = \left( \prod_{i=1}^x \frac{n+1-i}{i} \right) \color{red}{\frac{n+1-x+1}{x+1}} \frac{\frac{(\alpha+x-1)! \,\color{red}{(\alpha+x)}\,(\beta+n-x-1)! \, \color{red}{(\beta+n-x)^{-1}}}{(\alpha+\beta+n-1)!\,\color{red}{(\alpha+\beta+n)}}}{\mathrm{B}(\alpha,\beta)}$

e usando isso, você pode calcular a função de distribuição cumulativa como

F (x) = \sum_{k = 0}^{x} f (k)

$F(x) = \sum_{k=0}^x f(k)$

usando apenas operações aritméticas simples, em vez de calcular funções mais intensivas em computador.

Sidenote: ao lidar com grandes números, você entraria em problemas de precisão numérica, portanto, um código mais robusto precisaria trabalhar com logaritmos, mas mesmo que você esperasse uma melhoria na eficiência (código até duas a três vezes mais rápido quando eu executei alguns benchmarks em Código C ++ implementando-o em comparação com a implementação ingênua).

— Tim
fonte

Outra nota. A razão de integrais beta para o primeiro termo é outro produto simples isso simplifica para

f (0) = \frac{B (a, n + b)}{B (a, b)} = \frac{Γ (n + b) Γ (a + b)}{Γ (n + a + b) Γ (b)}

$f (0)=\frac {B (a,n+b)}{B (a,b)}=\frac {\Gamma (n+b)\Gamma (a+b)}{\Gamma (n+a+b)\Gamma (b)}$

\prod_{j = 1}^{n} \frac{n + b - j}{n + a + b - j}

$\prod_{j=1}^n\frac {n+b-j}{n+a+b-j}$

— probabilityislogic