Definição do tempo de autocorrelação (para tamanho efetivo da amostra)

23

Encontrei duas definições na literatura para o tempo de autocorrelação de uma série temporal fracamente estacionária:

τ_{a} = 1 + 2 \sum_{k = 1}^{\infty} ρ_{k} versus τ_{b} = 1 + 2 \sum_{k = 1}^{\infty} | ρ_{k} |

$\tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right|$

onde $\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}$ é a autocorrelação no atraso $k$ .

Uma aplicação do tempo de autocorrelação é encontrar o "tamanho efetivo da amostra": se você possui observações de uma série temporal e conhece o tempo de autocorrelação $n$ $\tau$ , pode fingir que possui

n_{eff} = \frac{n}{τ}

$n_\text{eff} = \frac{n}{\tau}$

amostras independentes em vez de amostras correlacionadas com o objetivo de encontrar a média. A estimativa de partir dos dados não é trivial, mas existem algumas maneiras de fazê-lo (consulte $n$ $\tau$ Thompson 2010 ).

A definição sem valores absolutos, , parece mais comum na literatura; mas admite a possibilidade de . Usando R e o pacote "coda": $\tau_a$ $\tau_a<1$

require(coda)
ts.uncorr <- arima.sim(model=list(),n=10000)         # white noise 
ts.corr <- arima.sim(model=list(ar=-0.5),n=10000)    # AR(1)
effectiveSize(ts.uncorr)                             # Sanity check
    # result should be close to 10000
effectiveSize(ts.corr)
    # result is in the neighborhood of 30000... ???

A função "effectiveSize" em "coda" usa uma definição do tempo de autocorrelação equivalente a $\tau_a$ , acima. Existem alguns outros pacotes R por aí que calculam o tamanho efetivo da amostra ou o tempo de autocorrelação, e todos os que tentei fornecem resultados consistentes com isso: que um processo AR (1) com um coeficiente de AR negativo tem amostras mais eficazes do que as correlacionadas séries temporais. Isso parece estranho.

Obviamente, isso nunca pode acontecer no $\tau_b$ definição de tempo de autocorrelação.

Qual é a definição correta de tempo de autocorrelação? Existe algo errado com minha compreensão dos tamanhos efetivos das amostras? O resultado mostrado acima parece estar errado ... o que está acontecendo? $n_\text{eff} > n$

r time-series correlation

— andrewtinka
fonte

Só para ter certeza de que não entendi errado, isso não deveria ser

vez de

?

C o v (X_{t}, X_{t + k})

$Cov(X_t,X_{t+k})$

h

$h$

— Sachinruk 23/10/2015

2

Estou interessado na segunda definição, ie,

. Você poderia fornecer a literatura onde a encontrou?

τ_{b}

$\tau_b$

— Harry

17

Primeiro, a definição apropriada de "tamanho efetivo da amostra" está ligada à OMI a uma questão bastante específica. Se são identicamente distribuído com média e variância 1 a média empírica $X_1, X_2, \ldots$ $\mu$ é um estimador imparcial de. Mas e a sua variação? Paravariáveisindependentes, a variação é. Para uma série de tempo fracamente estacionário, a variância da é

\hat{μ} = \frac{1}{n} \sum_{k = 1}^{n} X_{k}

$\hat{\mu} = \frac{1}{n} \sum_{k=1}^n X_k$

μ

$\mu$

n^{- 1}

$n^{-1}$

\hat{μ}

$\hat{\mu}$

\frac{1}{n^{2}} \sum_{k, l = 1}^{n} cov (X_{k}, X_{l}) = \frac{1}{n} (1 + 2 (\frac{n - 1}{n} ρ_{1} + \frac{n - 2}{n} ρ_{2} + \dots + \frac{1}{n} ρ_{n - 1})) ≃ \frac{τ_{a}}{n} .

$\frac{1}{n^2} \sum_{k, l=1}^n \text{cov}(X_k, X_l) = \frac{1}{n}\left(1 + 2\left(\frac{n-1}{n} \rho_1 + \frac{n-2}{n} \rho_2 + \ldots + \frac{1}{n} \rho_{n-1}\right) \right) \simeq \frac{\tau_a}{n}.$

n

$n$

n_{eff} = n / τ_{a}

$n_{\text{eff}} = n/\tau_a$

n_{eff}^{- 1}

$n_{\text{eff}}^{-1}$

n_{eff}

$n_{\text{eff}}$ amostras independentes. portanto

n_{eff} = n / τ_{a}

$n_{\text{eff}} = n/\tau_a$ é uma definição apropriada se pedirmos a variação da média empírica. Pode ser inadequado para outros fins.

Com uma correlação negativa entre as observações, é certamente possível que a variação possa se tornar menor do que $n^{-1}$ ( $n_{\text{eff}} > n$ ) Esta é uma técnica bem conhecida de redução de variância na integração Monto Carlo: Se introduzirmos correlação negativa entre as variáveis em vez da correlação 0, podemos reduzir a variância sem aumentar o tamanho da amostra.

— NRH
fonte

2

Para quem quiser saber mais sobre o uso da correlação negativa na simulação de Monte Carlo, tente pesquisar "variáveis antitéticas" no Google. Mais informações nas notas do curso aqui ou aqui .

— precisa saber é o seguinte

1

veja http://arxiv.org/pdf/1403.5536v1.pdf

e

https://cran.r-project.org/web/packages/mcmcse/mcmcse.pdf

para tamanho efetivo da amostra. Penso que a formulação alternativa usando a razão de variação da amostra e variação assintótica da cadeia de Markov via média do lote é um estimador mais apropriado.

— subhadip pal
fonte

4

Você poderia expandir o conteúdo desses links? Tal como está, ainda é muito curto para uma resposta de nossos padrões!

— Kjetil b halvorsen