Por que existe -1 na função de densidade de distribuição beta?

A distribuição beta aparece em duas parametrizações (ou aqui )

\begin{matrix} (1) & f (x) \propto x^{α} (1 - x)^{β} \end{matrix}

$f(x) \propto x^{\alpha} (1-x)^{\beta} \tag{1}$

ou aquele que parece ser usado com mais frequência

\begin{matrix} (2) & f (x) \propto x^{α - 1} (1 - x)^{β - 1} \end{matrix}

$f(x) \propto x^{\alpha-1} (1-x)^{\beta-1} \tag{2}$

Mas por que exatamente existe " " na segunda fórmula? $-1$

A primeira formulação intuitivamente parece corresponder mais diretamente à distribuição binomial

\begin{matrix} (3) & g (k) \propto p^{k} (1 - p)^{n - k} \end{matrix}

$g(k) \propto p^k (1-p)^{n-k} \tag{3}$

mas "visto" da perspectiva do $p$ . Isso é especialmente claro no modelo beta-binomial, em que pode ser entendido como um número anterior de sucessos e é um número anterior de falhas. $\alpha$ $\beta$

Então, por que exatamente a segunda forma ganhou popularidade e qual é a lógica por trás dela? Quais são as conseqüências do uso de qualquer uma das parametrizações (por exemplo, para a conexão com a distribuição binomial)?

Seria ótimo se alguém pudesse apontar adicionalmente as origens dessa escolha e os argumentos iniciais para ela, mas isso não é uma necessidade para mim.

— Tim
fonte

Uma razão profunda é sugerida nesta resposta :

f

$f$ é igual a

x^{α} (1 - x)^{β}

$x^\alpha(1-x)^\beta$ relação à medida

d μ = d x / ((x (1 - x))

$d\mu=dx/((x(1-x))$ . Isso reduz sua pergunta a "por que essa medida específica "? Reconhecendo que esta medida é

d μ = d (\log (\frac{x}{1 - x}))

$d\mu=d\left(\log\left(\frac{x}{1-x}\right)\right)$ sugere que a maneira "correta" de entender essas distribuições é aplicar a transformação logística: os termos "

- 1

$-1$ " desaparecerão.

— whuber

Eu acho que a verdadeira razão pela qual isso aconteceu é histórica - porque aparece dessa maneira na função beta para a qual a distribuição é nomeada. Quanto à razão que tem

- 1

$-1$ no poder, espero que acabaria por ser ligado à razão whuber menciona (embora historicamente não tem nada a ver com a medida ou mesmo probabilidade).

— Glen_b -Reinstala Monica

@Glen_b É mais do que histórico: existem razões profundas. Eles são, devido à ligação íntima entre as funções Beta e Gama, reduzindo a questão de porque o expoente em

Γ (s) = \int_{0}^{\infty} t^{s - 1} e^{- t} d t

$\Gamma(s)=\int_0^\infty t^{s-1}e^{-t}dt$ é

s - 1

$s-1$ e não

s

$s$ . Isso porque

Γ

$\Gamma$ é uma soma de Gauss . Equivalentemente, é "correto" visualizar

Γ

$\Gamma$ como parte integrante de um homomorfismo multiplicativo

t \to t^{s}

$t\to t^s$ vezes um caracter aditivo

t \to e^{- t}

$t\to e^{-t}$ contra a medida de Haar

d t / t

$dt/t$ no grupo multiplicativo

R^{\times}

$\mathbb{R}^{\times}$ .

— whuber

@wh Essa é uma boa razão pela qual a função gama deve ser escolhida dessa maneira (e eu já sugeri que essa razão existia acima e aceito alguma forma de raciocínio semelhante a essa - mas necessariamente com formalismo diferente - foi escolhida por Euler); razões correspondentes convincentes ocorrem com a densidade; mas isso não estabelece que esse foi realmente o motivo da escolha (por que o formulário foi escolhido como era), apenas que é um bom motivo para fazê-lo. A forma da função gama ...

— ctd

ctd ... sozinho poderia facilmente ser motivo suficiente para escolher esse formulário para a densidade e para outros seguirem o exemplo. [Muitas vezes, as escolhas são feitas por razões mais simples que as que podemos identificar posteriormente e, em seguida, são necessárias razões convincentes para fazer qualquer outra coisa. Sabemos que foi por isso que foi escolhido inicialmente?] - você explica claramente que há uma razão pela qual devemos escolher a densidade para ser assim, e não por que é assim. Isso envolve uma sequência de pessoas fazendo escolhas (para usar dessa maneira e seguir o exemplo), e seus motivos na hora que escolheram.

— Glen_b -Reinstala Monica

Respostas:

Esta é uma história sobre graus de liberdade e parâmetros estatísticos e por que é bom que os dois tenham uma conexão direta direta.

Historicamente, os termos " " apareceram nos estudos de Euler da função Beta. Ele usava essa parametrização em 1763, assim como Adrien-Marie Legendre: o uso deles estabeleceu a convenção matemática subsequente. Este trabalho antecede todas as aplicações estatísticas conhecidas. $-1$

A teoria matemática moderna fornece amplas indicações, através das inúmeras aplicações em análise, teoria dos números e geometria, de que os termos " " realmente têm algum significado. Eu esbocei alguns desses motivos nos comentários à pergunta. $-1$

De mais interesse é o que deveria ser a parametrização estatística "certa". Isso não é tão claro e não precisa ser o mesmo que a convenção matemática. Existe uma enorme rede de famílias comumente usadas, conhecidas e inter-relacionadas de distribuições de probabilidade. Portanto, as convenções usadas para nomear (ou seja, parametrizar) uma família geralmente implicam convenções relacionadas para nomear famílias relacionadas. Altere uma parametrização e você desejará alterá-las todas. Podemos, portanto, olhar para esses relacionamentos em busca de pistas.

Poucas pessoas discordariam que as famílias de distribuição mais importantes derivam da família Normal. Recorde-se que uma variável aleatória é dito ser "Normalmente distribuído" quando tem uma densidade de probabilidade proporcional a . Quando e , diz-se que tem uma distribuição normal padrão . $X$ $(X-\mu)/\sigma$ $f(x)$ $\exp(-x^2/2)$ $\sigma=1$ $\mu=0$ $X$

Muitos conjuntos de dados são estudados usando estatísticas relativamente simples envolvendo combinações racionais dos dados e baixas potências (normalmente quadrados). Quando esses dados são modelados como amostras aleatórias de uma distribuição Normal - de modo que cada é visto como uma realização de uma variável Normal , todos os compartilham uma distribuição comum e são independentes - as distribuições dessas estatísticas são determinados por essa distribuição normal. Os que surgem mais frequentemente na prática são $x_1, x_2, \ldots, x_n$ $x_i$ $X_i$ $X_i$

,adistribuição Studentcom "graus de liberdade". Esta é a distribuição da estatística $t_\nu$ $t$ $\nu = n-1$ ondemodela a média dos dados e
$t = \frac{\bar{X}}{se (X)}$ $t = \frac{\bar X}{\operatorname{se}(X)}$ $\bar X = (X_1 + X_2 + \cdots + X_n)/n$ é o erro padrão da média. A divisão pormostra quedeve serou maior, de ondeé um número inteiroou maior. A fórmula, embora aparentemente um pouco complicada, é a raiz quadrada de uma função racional dos dados do segundo grau: é relativamente simples. $\operatorname{se}(X) = (1/\sqrt{n})\sqrt{(X_1^2+X_2^2 + \cdots + X_n^2)/(n-1) - \bar X^2}$ $n-1$ $n$ $2$ $\nu$ $1$
,adistribuição (qui-quadrado)com "graus de liberdade" (df). Esta é a distribuição da soma dos quadrados de variáveis normais padrão independentes. A distribuição da média dos quadrados dessas variáveis será, portanto, $\chi^2_\nu$ $\chi^2$ $\nu$ $\nu$ distribuição escalada em : vou me referir a isso como umadistribuição "normalizada". $\chi^2$ $1/\nu$ $\chi^2$
,adistribuição da razão com os parâmetros é a razão de duasvariáveisnormalizadas independentes $F_{\nu_1, \nu_2}$ $F$ $(\nu_1, \nu_2)$ distribuiçõescom e graus de liberdade. $\chi^2$ $\nu_1$ $\nu_2$

Cálculos matemáticos mostram que todas essas três distribuições têm densidades. Importante, a densidade dodistribuição é proporcional ao integrando na definição integral de Euler da função Gamma ( ). Vamos compará-los: $\chi^2_\nu$ $\Gamma$

f_{χ_{ν}^{2}} (2 x) \propto x^{ν / 2 - 1} e^{- x}; f_{Γ (ν)} (x) \propto x^{ν - 1} e^{- x} .

$f_{\chi^2_\nu}(2x) \propto x^{\nu/2 - 1}e^{-x};\quad f_{\Gamma(\nu)}(x) \propto x^{\nu-1}e^{-x}.$

Isso mostra que duas vezes uma variável tem uma distribuição gama com o parâmetro . O fator da metade é bastante incômodo, mas subtrair tornaria o relacionamento muito pior. Isso já fornece uma resposta convincente à pergunta: se queremos que o parâmetro de um de distribuição para contar o número de variáveis normais quadrados que o produzem (até um factor de ), então o expoente em sua função de densidade must ser um a menos da metade dessa contagem. $\chi^2_\nu$ $\nu/2$ $1$ $\chi^2$ $1/2$

Por que é o fator de menos problemático do que uma diferença de ? A razão é que o fator permanecerá consistente quando somarmos as coisas. Se a soma dos quadrados de normais normais independentes for proporcional a uma distribuição gama com parâmetro (vezes algum fator), então a soma dos quadrados de normais normais independentes é proporcional a uma distribuição gama com parâmetro (vezes o mesmo fator) , onde a soma dos quadrados de todas as variáveis é proporcional a uma distribuição gama com o parâmetro (ainda é o mesmo fator). $1/2$ $1$ $n$ $n$ $m$ $m$ $n+m$ $m+n$ O fato de adicionar os parâmetros emular tanto a adição de contagens é muito útil.

Se, no entanto, formos remover esse " " de aparência traquina das fórmulas matemáticas, esses bons relacionamentos se tornarão mais complicados. Por exemplo, se alterássemos a parametrização das distribuições Gama para nos referirmos à potência real de na fórmula, de modo que uma distribuição estaria relacionada a uma distribuição "Gama " (uma vez que a potência de em sua PDF é ), então a soma de três $-1$ $x$ $\chi^2_1$ $(0)$ $x$ $1-1=0$ distribuições teria que ser chamada de "Gama $\chi^2_1$ $(2)$ "distribuição. Em suma, a estreita relação aditiva entre graus de liberdade e o parâmetro nas distribuições Gamma seria perdida removendo o da fórmula e absorvendo-o no parâmetro. $-1$

Da mesma forma, a função de probabilidade de uma distribuição da razão está intimamente relacionada às distribuições Beta. De fato, quando tem uma distribuição de razão , a distribuição de tem um Beta $F$ $Y$ $F$ $Z=\nu_1 Y/(\nu_1 Y + \nu_2)$ de distribuição. Sua função de densidade é proporcional a $(\nu_1/2, \nu_2/2)$

f_{Z} (z) \propto z^{ν_{1} / 2 - 1} (1 - z)^{ν_{2} / 2 - 1} .

$f_Z(z) \propto z^{\nu_1/2 - 1}(1-z)^{\nu_2/2-1}.$

Além disso - tomando essas idéias em um círculo completo - o quadrado de uma distribuição Student com df tem uma distribuição de razão com parâmetros . Mais uma vez, é evidente que manter a parametrização convencional mantém uma relação clara com as contagens subjacentes que contribuem para os graus de liberdade. $t$ $\nu$ $F$ $(1,\nu)$

Do ponto de vista estatístico, então, seria mais natural e simples de usar uma variação das parametrizações matemáticas convencionais de e distribuição beta: devemos preferir chamar um de distribuição de um " de distribuição" e a distribuição beta deve ser chamada de "distribuição beta ". De fato, já fizemos isso: é exatamente por isso que continuamos a usar os nomes "Qui-quadrado" e " $\Gamma$ $\Gamma(\alpha)$ $\Gamma(2\alpha)$ $(\alpha, \beta)$ $(2\alpha, 2\beta)$ $F$ distribuição "Razão " em vez de "Gama" e "Beta". Independentemente, em nenhum caso gostaríamos de remover os termos " " que aparecem nas fórmulas matemáticas de suas densidades. $-1$ Se o fizéssemos, perderíamos a conexão direta entre os parâmetros nas densidades e as contagens de dados às quais eles estão associados: sempre estaríamos desligados por um.

— whuber
fonte

Obrigado pela sua resposta (já tenho +1 d). Tenho apenas uma pequena pergunta de acompanhamento: talvez esteja faltando alguma coisa, mas não estamos sacrificando a relação direta com o binômio usando a parametrização -1?

— Tim

Não sei a qual "relação direta com o binômio" você está se referindo, Tim. Por exemplo, quando a distribuição Beta

é usada como um conjugado anterior para uma amostra Binomial, claramente os parâmetros são exatamente os corretos a serem usados: você adiciona

(não

) ao número de sucessos

(não

) para o número de falhas.

(a, b)

$(a,b)$

a

$a$

a - 1

$a-1$

b

$b$

b - 1

$b-1$

— whuber

A notação está enganando você. Há um "escondido " na fórmula , porque em , e deve ser maior do que (o segundo link que você forneceu na sua pergunta diz isso explicitamente). Os 'e ' nas duas fórmulas não são os mesmos parâmetros; eles têm faixas diferentes: em , e em , $-1$ $(1)$ $(1)$ $\alpha$ $\beta$ $-1$ $\alpha$ $\beta$ $(1)$ $\alpha,\beta>-1$ $(2)$ . Esses intervalos para $\alpha,\beta>0$ e são necessários para garantir que a integral da densidade não diverja. Para ver isso, considere em o caso (ou menos) e e tenteintegrara densidade (núcleo da) entre e . Equivalentemente, tente o mesmo em para (ou menos) e . $\alpha$ $\beta$ $(1)$ $\alpha=-1$ $\beta=0$ $0$ $1$ $(2)$ $\alpha=0$ $\beta=1$

— zen
fonte

A questão de uma gama de definições para

parece desaparecer quando a integral é interpretada, como Pochhammer fez em 1890, como uma integral de contorno específica. Nesse caso, pode ser equiparado a uma expressão que determina uma função analítica para todos os valores de

- incluindo todos os complexos. Isso lança luz sobre a preocupação na pergunta: por que exatamente essa parametrização específica foi adotada, considerando que existem muitas outras parametrizações possíveis que parecem servir igualmente bem?

α

$\alpha$

β

$\beta$

α

$\alpha$

β

$\beta$

— whuber

To me, the OP's doubt seems to be much more basic. He's kind of confused about the "-1" in (2), but not in (1) (not true, of course). It seems that your comment is answering a different question (much more interesting, by the way).

— Zen

Thanks for your effort and answer, but it still does not answer my main concern: why -1 was chosen? Following your logic, basically any value could be chosen changing the arbitrary lower bound to something else. I can't see why -1 or 0 could be better or worse lower bound for parameter values besides the fact that 0 is "aesthetically" nicer bound. On another hand, Beta(0, 0) would be nice "default" for uniform distribution when using the first form. Yes, those are very subjective comments, but that is my main point: are there any non-arbitrary reasons for such choice?

— Tim

Zen, I agree there was a question of how to interpret the original post. Thank you, Tim, for your clarifications.

— whuber

Hi, Tim! I don't see any definitive reason, although it makes more direct the connection with the fact that for

α, β > 0

$\alpha,\beta>0$ , if

U \sim G a m m a (α, 1)

$U\sim\mathrm{Gamma}(\alpha,1)$ and

V \sim G a m m a (β, 1)

$V\sim\mathrm{Gamma}(\beta,1)$ are independent, then

X = U / (U + V)

$X=U/(U+V)$ is

B e t a (α, β)

$\mathrm{Beta}(\alpha,\beta)$ , and the density of

X

$X$ is proportional to

x^{α - 1} (1 - x)^{β - 1}

$x^{\alpha-1}(1-x)^{\beta-1}$ . But then you can question the parameterization of the gamma distribution...

— Zen

For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorial $x!$ . Since it is not possible to compute $x!$ directly if $x$ is not integer, the idea was to find a function for any $x \geq 0$ that satisfies the recurrence relation defined by the factorial, namely

$f(1)=1\\ f(x+1)=x \cdot f(x).$

Solution was by means of the convergence of an integral. For the function defined as

$f(x+1) = \displaystyle\int_{0}^{\infty} t^{x}e^{-x} dt,$

integration by parts provides the following:

$\begin{align} f(x+1) & = \displaystyle\int_{0}^{\infty} t^{x}e^{-x} dt \\ & = \Big[-t^{x}e^{-x} \Big]^{\infty}_{0} + \displaystyle\int_{0}^{\infty} x\cdot t^{x-1}e^{-x} dt \\ &= \lim_{x \to \infty} (-t^{x}e^{-x}) - 0 \cdot e^{-0} + x\cdot \displaystyle\int_{0}^{\infty} t^{x-1}e^{-x} dt \\ &= 0 - 0 + x\cdot \displaystyle\int_{0}^{\infty} t^{x-1}e^{-x} dt \\ &= x \cdot f(x) . \end{align}$

So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .

Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions: $f(1)=1$ and $f(x+1)=x \cdot f(x)$ . We have $\Gamma(x) = (x-1)!$ , therefore it satisfies $\Gamma(x+1) = x \cdot \Gamma(x) = x \cdot (x-1)! = x!$ . In addition, we have $\Gamma(1) = (1-1)! = 0! = 1$ . As for the beta distribution with parameters $\alpha, \beta$ , generalisation of the Binomial coefficient is $\dfrac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \cdot \Gamma(\beta)} = \dfrac{(\alpha + \beta - 1)!}{(\alpha-1)! \cdot (\beta-1)!}$ . There we have the -1 in the denominator, for both parameters.

— aatr
fonte

This makes no sense because the recurrence function satisfied by the factorial is not what you state:

(x + 1)! \neq x \cdot x! .

$(x+1)! \ne x \cdot x!.$

— whuber

The function

f (x)

$f(x)$ satisfying the recurrence relation is the Gamma:

Γ (x + 1) = x \cdot Γ (x)

$\Gamma(x+1) = x \cdot \Gamma(x)$ . This is how it is defined.

— aatr

Yes: but your stated motivation is based on the factorial function, not the Gamma.

— whuber

It is important to recall the relation between Gamma and factorial:

Γ (x) = (x - 1)!

$\Gamma(x) = (x-1)!$ .

— aatr

Unfortunately, that's circular logic: you start off with the factorial, characterize Gamma as interpolating it, and then conclude that's why there's a -1. In fact, your post exhibits the -1 as if it fell out mistakenly by confusing Gamma with the factorial. Few will find that either illuminating or convincing.

— whuber