Tomando a expectativa da série Taylor (especialmente o restante)

43

Minha pergunta diz respeito à tentativa de justificar um método amplamente usado, a saber, o valor esperado da Taylor Series. Suponha que temos uma variável aleatória com média positiva e variância . Além disso, temos uma função, digamos, . $X$ $\mu$ $\sigma^2$ $\log(x)$

Fazendo a expansão Taylor de torno da média, obtemos onde, como sempre, é st. $\log X$

\log X = \log μ + \frac{X - μ}{μ} - \frac{1}{2} \frac{(X - μ)^{2}}{μ^{2}} + \frac{1}{3} \frac{(X - μ)^{3}}{ξ_{X}^{3}},

$\log X = \log\mu + \frac{X - \mu}{\mu} - \frac12 \frac{(X-\mu)^2}{\mu^2} + \frac13 \frac{(X - \mu)^3}{\xi_X^3},$

ξ_{X}

$\xi_X$

| ξ_{X} - μ | < | X - μ |

$|\xi_X - \mu| < |X - \mu|$

Se tomarmos uma expectativa, obteremos uma equação aproximada à qual as pessoas geralmente se referem como algo aparente (veja o sinal na primeira equação aqui) $\approx$ :

E \log X \approx \log μ - \frac{1}{2} \frac{σ^{2}}{μ^{2}}

$\mathbb{E}\log X \approx \log \mu - \frac12 \frac{\sigma^2}{\mu^2}$

PERGUNTA : Estou interessado em provar que o valor esperado do termo restante é realmente insignificante, por exemplo, (ou, em outras palavras, ).

E [\frac{(X - μ)^{3}}{ξ_{X}^{3}}] = o (σ^{2})

$\mathbb{E}\left[\frac{(X - \mu)^3}{\xi_X^3}\right] = o(\sigma^2)$

E [o (X - μ)^{2}] = o (E [(X - μ)^{2}])

$\mathbb{E}\bigl[o(X-\mu)^2\bigr] = o\bigl(\mathbb{E}\bigl[(X-\mu)^2\bigr]\bigr)$

O que tentei fazer : assumindo que (que, por sua vez, significa em ), tentei dividir a integral em duas, cercando com algumas -vicinity : $\sigma^2 \to 0$ $X \to \mu$ $\mathbb{P}$ $\mu$ $\varepsilon$ $N_\varepsilon$

\int_{R} p (x) \frac{(x - μ)^{3}}{ξ_{x}^{3}} d x = \int_{x \in N_{ε}} \dots d x + \int_{x \notin N_{ε}} \dots d x

$\int_\mathbb{R} p(x)\frac{(x-\mu)^3}{\xi_x^3} \,dx = \int_{x \in N_\varepsilon} \ldots dx + \int_{x \notin N_\varepsilon} \ldots dx$

O primeiro pode ser delimitado devido ao fato de que e, portanto, não se incomoda. Mas com o segundo, temos dois fatos concordantes: por um lado, (como ). Mas, por outro lado, não sabemos o que fazer com . $0 \notin N_\varepsilon$ $1/\xi^3$

P (| X - μ | > ε) \to 0

$\mathbb{P}(|X - \mu| > \varepsilon) \to 0$

σ^{2} \to 0

$\sigma^2 \to 0$

1 / ξ^{3}

$1/\xi^3$

Outra possibilidade seria tentar usar o lema de Fatou, mas não consigo descobrir como.

Apreciará qualquer ajuda ou sugestão. Percebo que essa é uma pergunta muito técnica, mas preciso passar por isso para confiar no método "expectativa de Taylor". Obrigado!

PS Eu verifiquei aqui , mas parece que é um pouco de outra coisa.

self-study mathematical-statistics expected-value

— agronskiy
fonte

Por que há um sinal de menos na frente do terceiro mandato da expansão de Taylor? Também porque no quarto mandato existem e não? o que estou perdendo?

3

$3$

3!

$3!$

— Alecos Papadopoulos

@ Alecos: Basta olhar para a

ésima derivada do

. Isso responderá às duas perguntas.

n

$n$

\log x

$\log x$

— cardeal

4

(+1) Esta questão surgiu recentemente nas discussões de duas questões relacionadas à descoberta dos momentos de

. Vale a pena ter cuidado adicional com esses assuntos. :-)

X^{- 1}

$X^{-1}$

— cardeal

1

A aproximação de primeira ordem pode realmente ser melhor em alguns casos, devido ao teorema do valor médio. Não tenho certeza se o teorema do valor médio ajudaria no caso geral.

— probabilityislogic

1

Eu teria pensado que a convergência dominado teorema pode ser útil aqui, como a equação

É um intercâmbio de limites e integração.

E (o (. .)) = o (E (. .))

$E(o(..))=o(E(..))$

— probabilityislogic

32

Você está certo em ser cético em relação a essa abordagem. O método da série Taylor não funciona em geral, embora a heurística contenha um núcleo de verdade. Para resumir a discussão técnica abaixo,

Forte concentração implica que o método da série Taylor funcione para boas funções
As coisas podem e darão muito errado para distribuições de cauda pesada ou funções não tão agradáveis

Como a resposta de Alecos indica, isso sugere que o método da série Taylor deve ser descartado se seus dados tiverem caudas pesadas. (Profissionais de finanças, estou olhando para você.)

Como observou Elvis, o principal problema é que a variação não controla momentos superiores . Para entender o porquê, vamos simplificar o máximo possível sua pergunta para chegar à ideia principal.

Suponha que tenhamos uma sequência de variáveis aleatórias com como . $X_n$ $\sigma(X_n)\to 0$ $n\to \infty$

P: Podemos garantir que como $\mathbb{E}[|X_n-\mu|^3] = o(\sigma^2(X_n))$ $n\to \infty?$

Como existem variáveis aleatórias com segundos momentos finitos e terceiros momentos infinitos, a resposta é enfaticamente não . Portanto, em geral, o método da série Taylor falha mesmo em polinômios de terceiro grau . A iteração desse argumento mostra que você não pode esperar que o método da série Taylor forneça resultados precisos, mesmo para polinômios, a menos que todos os momentos de sua variável aleatória sejam bem controlados.

O que devemos fazer então? Certamente, o método funciona para variáveis aleatórias limitadas cujo suporte converge para um ponto, mas essa classe é muito pequena para ser interessante. Suponha, em vez disso, que a sequência venha de uma família altamente concentrada que satisfaça (digamos) $X_n$

\begin{matrix} (1) & P {| X_{n} - μ | > t} \leq e^{- C n t^{2}} \end{matrix}

$\mathbb{P}\left\{ |X_n-\mu|> t\right\} \le \mathrm{e}^{- C n t^2} \tag{1}$

para cada e alguns . Tais variáveis aleatórias são surpreendentemente comuns. Por exemplo, quando é a média empírica $t>0$ $C>0$ $X_n$

X_{n} := \frac{1}{n} \sum_{i = 1}^{n} Y_{i}

$X_n := \frac{1}{n} \sum_{i=1}^n Y_i$

de boas variáveis aleatórias (por exemplo, iid e delimitadas), várias desigualdades de concentração implicam que satisfaz (1). Um argumento padrão (. Ver p 10 aqui ) limita o th momentos para tais variáveis aleatórias: $Y_i$ $X_n$ $p$

E [| X_{n} - μ |^{p}] \leq {(\frac{p}{2 C n})}^{p / 2} .

$\mathbb{E}[|X_n-\mu|^p] \le \left(\frac{p}{2 C n}\right)^{p/2}.$

Portanto, para qualquer função analítica "suficientemente agradável" (veja abaixo), podemos limitar o erro na aproximação da série Taylor de termo usando a desigualdade do triângulo $f$ $\mathcal{E}_m$ $m$

E_{m} := | E [f (X_{n})] - \sum_{p = 0}^{m} \frac{f^{(p)} (μ)}{p!} E (X_{n} - μ)^{p} | \leq \frac{1}{(2 C n)^{(m + 1) / 2}} \sum_{p = m + 1}^{\infty} | f^{(p)} (μ) | \frac{p^{p / 2}}{p!}

$\mathcal{E}_m:=\left|\mathbb{E}[f(X_n)] - \sum_{p=0}^m \frac{f^{(p)}(\mu)}{p!} \mathbb{E}(X_n-\mu)^p\right|\le \tfrac{1}{(2 C n)^{(m+1)/2}} \sum_{p=m+1}^\infty |f^{(p)}(\mu)| \frac{p^{p/2}}{p!}$

quando . Como a aproximação de Stirling dá , o erro dos satisfaz em série de Taylor truncadas $n>C/2$ $p! \approx p^{p-1/2}$

\begin{matrix} (2) & E_{m} = O (n^{- (m + 1) / 2}) as n \to \infty whenever \sum_{p = 0}^{\infty} p^{(1 - p) / 2} | f^{(p)} (μ) | < \infty . \end{matrix}

$\mathcal{E}_m = O(n^{-(m+1)/2}) \text{ as } n\to \infty\quad \text{whenever} \quad \sum_{p=0}^\infty p^{(1-p)/2 }|f^{(p)}(\mu)| < \infty \tag{2}.$

Portanto, quando está fortemente concentrado é suficientemente bom, a aproximação da série de Taylor é realmente precisa. A desigualdade que aparece em (2) implica que , de modo que, em particular, nossa condição exige que seja inteiro . Isso faz sentido porque (1) não impõe nenhuma suposição de limite a . $X_n$ $f$ $f^{(p)}(\mu)/p! = O(p^{-p/2})$ $f$ $X_n$

Vamos ver o que pode dar errado quando é singularidade (após o comentário do whuber). Suponha que escolhemos . Se tomarmos a partir da distribuição truncado entre zero e dois, então for suficientemente concentrada, mas para cada $f$ $f(x)=1/x$ $X_n$ $\mathrm{Normal}(1,1/n)$ $X_n$ $\mathbb{E}[f(X_n)] = \infty$ $n$ . Em outras palavras, temos uma variável aleatória limitada altamente concentrada e ainda assim o método da série Taylor falha quando a função tem apenas uma singularidade.

Algumas palavras sobre rigor. Acho melhor apresentar a condição que aparece em (2) como derivada, em vez de um deus ex machina necessário em um formato rigoroso de prova / teorema. Para tornar o argumento completamente rigoroso, observe primeiro que o lado direito em (2) implica que

E [| f (X_{n}) |] \leq \sum_{i = 0}^{\infty} \frac{| f^{(p)} (μ) |}{p!} E [| X_{n} - μ |^{p}] < \infty

$\mathbb{E}[|f(X_n)|] \le \sum_{i=0}^\infty \frac{|f^{(p)}(\mu)|}{p!} \mathbb{E}[|X_n-\mu|^p]< \infty$

pela taxa de crescimento dos momentos subgaussianos de cima. Assim, o teorema de Fubini fornece

E [f (X_{n})] = \sum_{i = 0}^{\infty} \frac{f^{(p)} (μ)}{p!} E [(X_{n} - μ)^{p}]

$\mathbb{E}[f(X_n)] = \sum_{i=0}^\infty \frac{f^{(p)}(\mu)}{p!} \mathbb{E}[(X_n-\mu)^p]$

O restante da prova prossegue como acima.

— Mike McCoy
fonte

1

Eu posso ter perdido isso em uma leitura rápida, mas você está afirmando (entre outras coisas) que, desde que o terceiro momento de

esteja suficientemente "sob controle", então a expectativa do

pode ser razoavelmente aproximada, levando-se em consideração as expectativas do Série [MacLaurin] de

? Estou preocupado porque eu não vi qualquer referência às propriedades de convergência da série em si, que são pelo menos tão importantes quanto as caudas da distribuição de

.

X

$X$

\log (X)

$\log(X)$

\log

$\log$

X

$X$

— whuber

2

@whuber Você está correto; você precisará do suporte de

para fazer parte do ROC da série Taylor, portanto, em particular,

quase certamente. Vou atualizar a postagem para refletir isso.

X

$X$

0 < X < 2 μ

$0<X<2 \mu$

— Mike McCoy

2

Eu ainda acho que estou perdendo alguma coisa. Por exemplo, quando

tem uma distribuição Normal

truncada para

, obviamente ela é "altamente concentrada", tem uma média de

e está quase certamente dentro do raio de convergência de

(que é analítico no interior do disco da unidade centrado em

X

$X$

(1, 1)

$(1,1)$

(0, 2)

$(0,2)$

μ = 1

$\mu=1$

f (x) = 1 / x = 1 / (1 - (1 - x))

$f(x)=1/x = 1/(1-(1-x))$

1

$1$ , que contém

), mas

é infinito.

(0, 2 μ)

$(0,2\mu)$

E [f (X)]

$\mathbb{E}[f(X)]$

— whuber

1

@gron Você cometeu um pequeno erro. Quando

, a derivada

. A condição não é válida porque

para qualquer

f (x) = 1 / x

$f(x)=1/x$

| f^{(p)} (μ) | = p! / μ^{p}

$|f^{(p)}(\mu)|=p!/\mu^p$

(2) = \sum p! p^{(1 - p / 2)} μ^{p} \to \infty

$\text{(2)}=\sum p! p^{(1-p/2)} \mu^p \to \infty$

μ > 0

$\mu>0$ . Você também pode verificar se (2) não é válido porque qualquer função que satisfaça (2) também satisfaz

e, portanto,

não possui singularidades (sua totalidade , por a ligação).

\log (p! f^{(p)} (μ)) / p \to - \infty

$\log (p! f^{(p)}(\mu) )/ p \to -\infty$

f

$f$

— Mike McCoy #

1

@gron Você precisa de duas coisas: (1) certifique-se de que seu RV tenha suporte estritamente dentro do ROC da série de potências do log (ou seja,

para

) e (2) faça certifique-se de que os momentos do VR diminuam rápido o suficiente para que uma estimativa de erro para

acima seja finita. Quanto a como controlar os momentos, você deve fazer uma nova pergunta, porque ela terá muitos personagens (e eu também estou curioso sobre as novas maneiras).

[0 + ε, 2 μ - ε]

$[0+\varepsilon, 2 \mu-\varepsilon]$

ε > 0

$\varepsilon > 0$

E_{m}

$\mathcal{E}_m$

— Mike McCoy

10

Embora minha resposta não se aproxime do nível de sofisticação matemática das outras respostas, decidi publicá-la porque acredito que ela tem algo a contribuir - embora o resultado seja "negativo", como dizem.

Em um tom leve, eu diria que o OP é "avesso ao risco" (como a maioria das pessoas é, assim como a própria ciência), porque o OP requer uma condição suficiente para que a aproximação de expansão da série Taylor de 2ª ordem seja " aceitável". Mas é não uma condição necessária.

Em primeiro lugar, um pré-requisito necessário, mas não suficiente, para que o valor esperado do Restante seja de ordem inferior à variação do rv, conforme requer o OP, é que a série converja em primeiro lugar. Devemos apenas assumir convergência? Não.

A expressão geral que examinamos é

E [g (Y)] = \int_{- \infty}^{\infty} f_{Y} (y) [\sum_{i = 0}^{\infty} g^{(i)} (μ) \frac{(y - μ)^{i}}{i!}] d y [1]

$E\Big[g(Y)\Big] = \int_{-\infty}^{\infty}f_Y(y)\Big[\sum_{i=0}^{\infty}g^{(i)}(\mu)\frac{(y-\mu)^i}{i!}\Big]dy \qquad [1]$

Como Loistl (1976) afirma, referenciando o livro "Calculus and Statistics" de Gemignani (1978, p. 170), uma condição para convergência da soma infinita é (uma aplicação do teste de razão para convergência)

y - μ < | y - μ | < lim_{i \to \infty} | (\frac{g^{(i)} (μ)}{g^{(i + 1)} (μ)} (i + 1)) | [2]

$y-\mu < |y-\mu|<\lim_{i\rightarrow \infty}\left | \left(\frac {g^{(i)}(\mu)}{g^{(i+1)}(\mu)}(i+1)\right)\right| \qquad [2]$

$\mu$

$g()$ $y-\mu$ $0 <y$ $[2]$

y - μ < μ \Rightarrow 0 < y < 2 μ

$y-\mu < \mu \Rightarrow 0 < y < 2\mu$

Isso significa que, se nossa variável variar fora desse intervalo, a expansão de Taylor, tendo como centro de expansão, a média da variável irá divergir.

Portanto, para algumas formas funcionais, o valor de uma função em algum ponto de seu domínio é igual a sua expansão infinita de Taylor, não importa a que distância esse ponto esteja do centro de expansão. Para outras formas funcionais (logaritmo incluído), o ponto de interesse deve estar um pouco "próximo" do centro de expansão escolhido. No caso em que temos um rv, isso se traduz em uma restrição ao suporte teórico da variável (ou a um exame de sua faixa empiricamente observada).

Loitl, usando exemplos numéricos, também mostrou que aumentar a ordem da expansão antes do truncamento poderia piorar a situação da precisão da aproximação. Devemos observar que, empiricamente, as séries temporais de variáveis observadas no setor financeiro apresentam variabilidade maior que a exigida pela desigualdade. Então Loitl defendeu que a metodologia de aproximação das séries de Taylor deveria ser descartada inteiramente, em relação à teoria de escolha de portfólio.

A recuperação veio 18 anos depois de Hlawitschka (1994) . O valioso insight e resultado aqui foi, e cito

... embora uma série possa convergir, pouco se pode dizer sobre qualquer uma de suas séries parciais; A convergência de uma série não implica que os termos diminuam imediatamente de tamanho ou que qualquer termo em particular seja suficientemente pequeno para ser ignorado. De fato, é possível, como demonstrado aqui, que uma série possa parecer divergir antes de convergir no limite. Portanto, a qualidade do momento aproximada da utilidade esperada, baseada nos primeiros termos de uma série de Taylor, não pode ser determinada pelas propriedades de convergência da série infinita. Essa é uma questão empírica e, empiricamente, as aproximações de dois momentos das funções de utilidade estudadas aqui apresentam bom desempenho na tarefa de seleção de portfólio. Hlawitschka (1994)

$E(g(Y)$ que sempre dava resultados quantitativos que, quando suficientemente perto desse valor exato (veja sua tabela A1 na p. 718).

Então, onde isso nos deixa? No limbo, eu diria. Parece que, tanto na teoria quanto nos empíricos, a aceitabilidade da aproximação de Taylor de 2ª ordem depende criticamente de muitos aspectos diferentes do fenômeno específico em estudo e da metodologia científica empregada - depende dos pressupostos teóricos, das formas funcionais utilizadas, na variabilidade observada das séries ...

Mas vamos encerrar isso positivamente: hoje em dia, a energia do computador substitui muitas coisas. Assim, poderíamos simular e testar a validade da aproximação de 2ª ordem, para uma ampla gama de valores da variável a baixo custo, quer trabalhemos em um problema teórico ou empírico.

— Alecos Papadopoulos
fonte

8

Não é uma resposta real, mas um exemplo para mostrar que as coisas não são tão agradáveis e que hipóteses extras são necessárias para tornar esse resultado verdadeiro.

$X_n$ $U\left( \left[ -{1\over n} ; {1\over n} \right] \right)$ $\mathcal N({n \over n-1}, {1\over n})$ $1\over n$ $1 -{1\over n} = {n-1 \over n}$ $E(X_n) = 1$ $0$ $n$

E (X_{n}^{2}) = \frac{1}{3 n^{2}} \times \frac{1}{n} + ({(\frac{n}{n - 1})}^{2} + \frac{1}{n}) \times \frac{n - 1}{n},

$E\left(X_n^2\right) = {1\over 3 n^2} \times {1\over n} + \left(\left({n \over n-1}\right)^2+{1\over n}\right)\times{n-1 \over n},$

$f(x) = 1/x$ $f(0) = 0$ $f(X_n)$

\int_{- \frac{1}{n}}^{\frac{1}{n}} \frac{1}{x} d x

$\int_{-{1\over n}}^{1\over n} {1\over x} \mathrm dx$

n

$n$

$f$ $X_n$

PS. Este exemplo não é um contra-exemplo da resposta de Nick? Quem está errado então?

— Elvis
fonte

1

E [X^{k}]

$E\left[X^k\right]$

k = 1, 2, 3

$k=1,2,3$

f (x)

$f(x)$

x = μ

$x=\mu$

f (x) = \frac{1}{x}

$f(x)=\frac{1}{x}$

x = 0

$x=0$

f

$f$

μ = 1

$\mu = 1$

1

Elvis, sim, precisamos de uma condição global. Essencialmente, o restante deve se comportar bem depois de ser ponderado pelas caudas da distribuição. Para algo semelhante ao seu exemplo que surgiu recentemente, veja aqui , aqui e aqui .

— cardeal

4

Esta não é uma resposta completa, apenas uma maneira diferente de chegar à aproximação de segunda ordem.

f (X) = f (μ) + f^{'} (ξ_{1}) (X - μ)

$f(X)=f(\mu)+f'(\xi_1)(X-\mu)$

$X\leq\xi_1 \leq \mu$ $X \leq \mu$ $X\geq\xi_1 \geq \mu$ $X \geq \mu$ $f'(\xi_1)$

f^{'} (ξ_{1}) = f^{'} (μ) + f^{″} (ξ_{2}) (ξ_{1} - μ)

$f'(\xi_1)= f'(\mu) + f''(\xi_2)( \xi_1-\mu)$

$X\leq\xi_1\leq\xi_2\leq\mu$ $X\leq\mu$ $X\geq\xi_1\geq \xi_2 \geq\mu$ $X\geq\mu$

f (X) = f (μ) + f^{'} (μ) (X - μ) + f^{″} (ξ_{2}) (ξ_{1} - μ) (X - μ)

$f(X)=f(\mu)+ f'(\mu) (X-\mu) + f''(\xi_2)( \xi_1-\mu) (X-\mu)$

$f$ $X$ $\mu$ $X$ $X$ $\xi_i$ $\xi_1-\mu=\frac{1}{2}(X-\mu)$ $\xi_2=\mu$ $X$

— probabilityislogic
fonte