Distribuição de probabilidade especial

Se $p(x)$ é uma distribuição de probabilidade com valores diferentes de zero em $[0,+\infty)$ , para que tipo (s) de $p(x)$ existe uma constante $c\gt 0$ tal que $\int_0^{\infty}p(x)\log{\frac{ p(x)}{(1+\epsilon)p({x}(1+\epsilon))}}dx \leq c \epsilon^2$ para todos os $0\lt\epsilon\lt 1$ ?

A desigualdade acima é na verdade uma divergência de Kullback-Leibler entre a distribuição $p(x)$ e uma versão compactada dela ${(1+\epsilon)}p({x}{(1+\epsilon)})$ . Descobri que essa desigualdade vale para as distribuições Exponential, Gamma e Weibull e estou interessado em saber se isso funciona para uma classe maior de distribuições de probabilidade.

Alguma idéia do que essa desigualdade significa?

— Sus20200
fonte

Como

é positivo, isso seria compactado (na direção x) em vez de esticado.

ϵ

$\epsilon$

— Glen_b -Reinstala Monica

Essa pergunta é ambígua: quais são seus quantificadores? Você quer essa desigualdade de segurar por todo

, pelo menos, um

, ou algo mais?

é dado a priori ou você quer dizer que deveria existir pelo menos um desses valores de

? E como você menciona classes de distribuições de probabilidade, por "

" você quer dizer uma distribuição específica ou talvez uma família paramétrica delas?

ϵ

$\epsilon$

ϵ

$\epsilon$

c

$c$

c

$c$

p (x)

$p(x)$

— whuber

Obrigado por seus comentários. Corrigi a declaração do meu problema para esclarecer os problemas mencionados. Quero dizer, para que

a desigualdade acima se aplica? A resposta pode ser a introdução de uma família paramétrica de distribuições ou a proposição de uma equação diferencial para

que seja suficiente e forneça a desigualdade desejada.

p (x)

$p(x)$

p (x)

$p(x)$

— Sus20200

Essa desigualdade não funcionaria para qualquer p (x) que seja contínuo e com suporte infinito? Você está computando a divergência de KL dentro de uma família paramétrica (

. Se o KL é diferenciável em 0, sua derivada é 0. Tomando

para o máximo da curvatura de KL (por

), temos o limite.Com trabalho adicional, pode ser possível ligar C a partir das propriedades de p

ϵ \to p (x (1 + ϵ))

$\epsilon \rightarrow p(x(1+\epsilon))$

C

$C$

ϵ \in [0, 1]

$\epsilon \in [0,1]$

— Guillaume Dehaene

Pode ser infinito desde que

. A primeira ordem de expansão do KL é

L = lim_{x \to 0} p (x) x = 0

$L = \lim_{x \rightarrow 0} p(x)x = 0$

L ϵ + O (ϵ^{2})

$L \epsilon + O(\epsilon^2)$

— Arthur B.

Preliminares

Escrever

I_{p} (ϵ) = \int_{0}^{\infty} p (x) \log (\frac{p (x)}{(1 + ϵ) p (x (1 + ϵ))}) d x .

$\mathcal{I}_p(\epsilon) = \int_0^\infty p(x) \log\left(\frac{p(x)}{(1+\epsilon)p(x(1+\epsilon))}\right)\, dx.$

Os logaritmos e o relacionamento entre os e sugerem que expressa ambos e o seu argumento como exponenciais. Para esse fim, defina $p(x)$ $p(x(1+\epsilon))$ $p$

q (y) = \log (p (e^{y}))

$q(y) = \log(p(e^y))$

para todo real para o qual o lado direito é definido e igual a sempre que . Observe que a mudança das variáveis implica e (considerando como a densidade de uma distribuição) que a Lei da Probabilidade Total pode, assim, ser expressa como $y$ $-\infty$ $p(e^y)=0$ $x=e^y$ $dx=e^y dy$ $p$

\begin{matrix} (1) & 1 = \int_{0}^{\infty} p (x) d x = \int_{R} e^{q (y) + y} d y . \end{matrix}

$1 = \int_0^\infty p(x)dx = \int_\mathbb{R} e^{q(y)+y} dy.\tag{1}$

Vamos assumir quando . $e^{q(y)+y}\to 0$ $y\to\pm\infty$ Isso exclui as distribuições de probabilidade com infinitos picos de densidade próximos a ou . Em particular, se as caudas de forem eventualmente monotônicas, implica essa suposição, mostrando que não é grave. $p$ $0$ $\infty$ $p$ $(1)$

Para facilitar o trabalho com os logaritmos, observe também que

1 + ϵ = e^{ϵ} + O (ϵ^{2}) .

$1+\epsilon = e^\epsilon + O(\epsilon^2).$

Como os cálculos a seguir serão executados até múltiplos de , defina $\epsilon^2$

δ = \log (1 + ϵ) .

$\delta = \log(1+\epsilon).$

Poderíamos também substituir por , com correspondendo a e positivo correspondendo a positivo . $1+\epsilon$ $e^\delta$ $\delta=0$ $\epsilon=0$ $\delta$ $\epsilon$

Análise

Uma maneira óbvia em que a desigualdade pode falhar seria para a integral a divergir por algum . Isso aconteceria se, por exemplo, houvesse qualquer intervalo adequado de números positivos, não importa quão pequeno, em que fosse identicamente zero, mas não fosse zero no intervalo $\mathcal{I}_p(\epsilon)$ $\epsilon \in (0, 1]$ $[u, v]$ $p$ $p$ $[u-\epsilon, v-\epsilon]$ . Isso faria com que o integrando fosse infinito com probabilidade positiva.

Because the question is unspecific concerning the nature of $p$ , we could get bogged down in technical issues concerning how smooth $p$ might be. Let's avoid such issues, still hoping to gain some insight, by assuming that $q$ everywhere has as many derivatives as we might care to use. (Two will suffice if $q^{\prime\prime}$ is continuous.) Because that guarantees $q$ remains bounded on any bounded set, it implies that $p(x)$ is never zero when $x \gt 0$ .

Note que a questão realmente diz respeito ao comportamento de quando aproxima de zero de cima. Como essa integral é uma função contínua de no intervalo , ela atinge um máximo de quando é restrito a qualquer intervalo positivo , permitindo escolher , porque obviamente $\mathcal{I}_p(\epsilon)$ $\epsilon$ $\epsilon$ $(0,1]$ $M_p(a)$ $\epsilon$ $[a,1]$ $c = M_p(a)/a^2$

c ϵ^{2} = M_{p} (a) {(\frac{ϵ}{a})}^{2} \geq M_{p} (a) \geq I_{p} (ϵ)

$c\epsilon^2 = M_p(a) \left(\frac{\epsilon}{a}\right)^2 \ge M_p(a) \ge \mathcal{I}_p(\epsilon)$

makes the inequality work. This is why we need only be concerned with the calculation modulo $\epsilon^2$ .

Solution

Using the changes of variable from $x$ to $y$ , from $p$ to $q$ , and $\epsilon$ to $\delta$ , let's calculate $\mathcal{I}_p(\epsilon)$ through second order in $\epsilon$ (or $\delta$ ) in the hope of achieving a simplification. To that end define

R (y, δ) δ^{2} = q (y + δ) - q (y) - δ q^{'} (y)

$\mathcal{R}(y, \delta) \delta^2 = q(y+\delta) - q(y) - \delta q^\prime(y)$

to be the order- $2$ remainder in the Taylor expansion of $q$ around $y$ .

\begin{aligned} I_{p} (ϵ) & = \int_{R} e^{q (y) + y} (q (y) - q (y + δ) - δ) d y \\ = - \int_{R} e^{q (y) + y} (δ + δ q^{'} (y) + R (y, δ) δ^{2}) d y \\ = - δ \int_{R} e^{q (y) + y} (1 + q^{'} (y)) d y - δ^{2} \int_{R} e^{q (y) + y} R (y, δ) d y . \end{aligned}

$\eqalign{ \mathcal{I}_p(\epsilon) &= \int_\mathbb{R}e^{q(y) + y} \left(q(y) - q(y+\delta) - \delta\right)\, dy \\ &=-\int_\mathbb{R}e^{q(y) + y} \left(\delta + \delta q^\prime(y) + \mathcal{R}(y, \delta) \delta^2 \right)\, dy \\ &= -\delta\int_\mathbb{R}e^{q(y) + y} \left(1+q^\prime(y)\right)\, dy -\delta^2\int_\mathbb{R}e^{q(y) + y} \mathcal{R}(y, \delta)\, dy. }$

Changing variables to $q(y)+y$ in the left hand integral shows it must vanish, as remarked in the assumption following $(1)$ . Changing variables back to $x=e^y$ in the right hand integral gives

I_{p} (ϵ) = - δ^{2} \int_{R} p (x) R (\log (x), δ) d y = - δ^{2} E_{p} (R (\log (x), δ)) .

$\mathcal{I}_p(\epsilon) = - \delta^2 \int_\mathbb{R} p(x) \mathcal{R}(\log(x), \delta)\, dy = -\delta^2 \mathbb{E}_p\left(\mathcal{R}(\log(x), \delta)\right).$

The inequality holds (under our various technical assumptions) if and only if the coefficient of $\delta^2$ on the right hand side is finite.

Interpretation

This is a good point to stop, because it appears to uncover the essential issue: $\mathcal{I}_p(\epsilon)$ is bounded by a quadratic function of $\epsilon$ precisely when the quadratic error in the Taylor expansion of $q$ doesn't explode (relative to the distribution) as $y$ approaches $\pm\infty$ .

Let's check some of the cases mentioned in the question: the Exponential and Gamma distributions. (The Exponential is a special case of the Gamma.) We never have to worry about scale parameters, because they merely change the units of measurement. Only non-scale parameters matter.

Here, because $p(x) = x^k e^{-x}$ for $k \gt -1$ ,

q (y) = - e^{y} + k y - \log Γ (k + 1) .

$q(y) = -e^y + k y - \log\Gamma(k+1).$ The Taylor expansion around an arbitrary

y

$y$ is

Constant + (k - e^{y}) δ - \frac{e^{y}}{2} δ^{2} + \dots .

$\text{Constant} + (k-e^y)\delta - \frac{e^y}{2}\delta^2 + \cdots.$ Taylor's Theorem with Remainder implies

R (\log (x), δ)

$\mathcal{R}(\log(x),\delta)$ is dominated by

e^{y + δ} / 2 < x

$e^{y+\delta}/2 \lt x$ for sufficiently small

δ

$\delta$ . Since the expectation of

x

$x$ is finite, the inequality holds for Gamma distributions.

Similar calculations imply the inequality for Weibull distributions, Half-Normal distributions, Lognormal distributions, etc. In fact, to obtain counterexamples we would need to violate at least one assumption, forcing us to look at distributions where $p$ vanishes on some interval, or is not continuously twice differentiable, or has infinitely many modes. These are easy tests to apply to any family of distributions commonly used in statistical modeling.

— whuber
fonte