A média de uma variável aleatória univariada sempre é igual à integral de sua função quantil?


17

Acabei de notar que a integração da função quantílica de uma variável aleatória univariada (cdf inverso) de p = 0 ep = 1 produz a média da variável. Eu não tinha ouvido falar desse relacionamento até agora, então estou me perguntando: esse é sempre o caso? Em caso afirmativo, essa relação é amplamente conhecida?

Aqui está um exemplo em python:

from math import sqrt
from scipy.integrate import quad
from scipy.special import erfinv

def normalPdf(x, mu, sigma):
    return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0))

def normalQf(p, mu, sigma):
    return mu + sigma * sqrt(2.0) * erfinv(2.0 * p - 1.0)

mu = 2.5
sigma = 1.3
quantileIntegral = quad(lambda p: quantile(p,mu,sigma), 0.0, 1.0)[0]
print quantileIntegral # Prints 2.5.

Respostas:


26

Seja o CDF da variável aleatória , para que o CDF inverso possa ser escrito . Em sua integral, faça a substituição , para obterX F - 1 p = F ( x ) d p = F ( x ) d x = f ( x ) d xFXF1p=F(x)dp=F(x)dx=f(x)dx

01F1(p)dp=xf(x)dx=EF[X].

Isso é válido para distribuições contínuas. Deve-se tomar cuidado com outras distribuições porque um CDF inverso não possui uma definição única.

Editar

Quando a variável não é contínua, ela não possui uma distribuição absolutamente contínua em relação à medida de Lebesgue, exigindo cuidados na definição do CDF inverso e cuidados na computação de integrais. Considere, por exemplo, o caso de uma distribuição discreta. Por definição, é aquele cujo CDF é uma função de etapa com etapas de tamanho em cada valor possível .FPrF(x)x

figura 1

Esta figura mostra o CDF de uma distribuição de Bernoulli dimensionada por . Ou seja, a variável aleatória tem uma probabilidade de igual a e uma probabilidade de de igual a . As alturas dos saltos em e dão suas probabilidades. A expectativa dessa variável é evidentemente igual a .(2/3)21/302/32020×(1/3)+2×(2/3)=4/3

Poderíamos definir um "CDF inverso" exigindoF1

F1(p)=x if F(x)p and F(x)<p.

Isso significa que também é uma função de etapa. Para qualquer valor possível da variável aleatória, atingirá o valor em um intervalo de comprimento . Portanto, sua integral é obtida somando os valores , que é apenas a expectativa.F1xF1xPrF(x)xPrF(x)

Figura 2

Este é o gráfico do CDF inverso do exemplo anterior. Os saltos de e no CDF tornam-se linhas horizontais desses comprimentos em alturas iguais a e , valores a cujas probabilidades correspondem. (O CDF inverso não está definido além do intervalo .) Sua integral é a soma de dois retângulos, um da altura e base , o outro da altura e base , totalizando , como antes.1/32/302[0,1]01/322/34/3

Em geral, para uma mistura de uma distribuição contínua e uma discreta, precisamos definir o CDF inverso para paralelizar essa construção: a cada salto discreto de altura , devemos formar uma linha horizontal de comprimento conforme indicado pela fórmula anterior.pp


você cometeu um erro na mudança de variável. de onde vem o x?
Mascarpone

3
@ Mascarpone Por favor, leia o texto que precede a equação. Eu não acho que haja um erro na alteração da variável :-), mas se você acha que isso esclareceria a exposição, eu ficaria feliz em apontar que quando , então . Só não achei que fosse necessário. p=F(x)x=F1(p)
whuber

agora eu entendi;),
Mascarpone 15/11

+1 Whuber: Obrigado! Você poderia elaborar para usar a fórmula que você forneceu, como cuidar de outras distribuições cujo CDF inverso não tem uma definição única?
Tim

1
Para ignorar essas considerações desconfortáveis ​​sobre inversas, pseudo-inversas e similares, e simultaneamente para uma generalização a cada momento, veja aqui .
Será que

9

Um resultado equivalente é bem conhecido na análise de sobrevivência : a vida útil esperada é onde a função de sobrevivência é medida desde o nascimento em . (Ele pode ser facilmente estendido para cobrir valores negativos de .)

t=0S(t)dt
S(t)=Pr(T>t)t=0t

insira a descrição da imagem aqui

Portanto, podemos reescrever isso como mas isso é como mostrado em várias reflexões da área em questão

t=0(1F(t))dt
q=01F1(q)dq

insira a descrição da imagem aqui


1
Gosto de fotos e sinto instintivamente que há uma ótima idéia à espreita aqui - eu amo a idéia--, mas não entendo essas em particular. Explicações seria útil. Uma coisa que me impede de seguir é o pensamento de tentar estender a integral de para : ela precisa divergir. (1F(t))dt
whuber

@ whuber: Se você deseja estender para negativo , obtém . Observe que se isso convergir para uma distribuição simétrica em torno de , ou seja, , é fácil ver que a expectativa é zero. Tomando uma soma em vez de uma diferença fornece o desvio absoluto médio de cerca de . tt=0(1F(t))dtt=0F(t)dt0F(t)=1F(t)t=0(1F(t))dt+t=0F(t)dt0
Henry

Se você gosta de diagramas, pode estar interessado neste artigo de 1988 de Lee: The Mathematics of Excesso of Loss Coverages and Retrospective Rating-A Approach Graphical .
Avraham

4

Estamos avaliando:

insira a descrição da imagem aqui

Vamos tentar com uma simples mudança de variável:

insira a descrição da imagem aqui

E notamos que, por definição de PDF e CDF:

insira a descrição da imagem aqui

quase em todos os lugares. Assim, por definição do valor esperado, temos:

insira a descrição da imagem aqui


Na linha final, explico mais claramente a definição de valor esperado. O quase todo lugar se refere à equação acima da última. pt.wikipedia.org/wiki/Almost_everywhere
Mascarpone

1
editada, thanx :)
Mascarpone

3

Para qualquer variável aleatória com valor real com cdf , é sabido que tem a mesma lei que quando é uniforme em . Portanto, a expectativa de , sempre que existe, é a mesma que a de : A representação vale para um cdf geral , considerando como o inverso contínuo à esquerda de no caso em que não é invertível.XF F1(U)XU(0,1)XF1(U)X F - 1 ( U ) F F - 1 F F

E(X)=E(F1(U))=01F1(u)du.
XF1(U)FF1FF

1

Observe que é definido como e é uma função contínua à direita. é definido como O faz sentido por causa da continuidade correta. Seja uma distribuição uniforme em . Você pode facilmente verificar se tem o mesmo CDF como , que é . Isso não requer que o seja contínuo. Portanto, . A integral é a integral de Riemann – StieltjesF(x)P(Xx)F1

F1(p)=min(x|F(x)p).
minU[0,1]F1(U)XFX X E | X | < E(X)=E(F1(U))=01F1(p)dp. A única suposição de que precisamos é que a média de existe ( ).XE|X|<

Essa é a mesma resposta que a minha.
Stéphane Laurent
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.