A matemática necessária para obter um resultado exato é confusa, mas podemos derivar um valor exato para o coeficiente de correlação ao quadrado esperado de forma relativamente indolor. Ele ajuda a explicar por que um valor próximo de continua a mostrar-se e por que aumentar o comprimento1/2 do passeio aleatório não vai mudar as coisas.n
Existe potencial para confusão sobre termos padrão. A correlação absoluta referida na questão, juntamente com as estatísticas que a compõem - variações e covariâncias - são fórmulas que podem ser aplicadas a qualquer par de realizações de passeios aleatórios. A questão diz respeito ao que acontece quando olhamos para muitas realizações independentes. Para isso, precisamos assumir expectativas em relação ao processo de caminhada aleatória.
(Editar)
Antes de prosseguir, quero compartilhar algumas informações gráficas com você. Um par de passeios aleatórios independentes é um passeio aleatório em duas dimensões. Podemos traçar o caminho que passa de cada um ( X t , Y t ) para X t + 1 , Y t + 1 . Se esse caminho tender para baixo (da esquerda para a direita, plotado nos eixos XY usuais) , para estudar o valor absoluto da correlação , vamos negar todos os valores Y. Traçar os passeios em eixos dimensionados para dar o X e(X,Y)(Xt,Yt)Xt+1,Yt+1YXY valores iguais desvios padrão e sobrepor os mínimos quadrados de para X . As inclinações dessas linhas serão os valores absolutos dos coeficientes de correlação, situando-se sempre entre 0 e 1 .YX01
Esta figura mostra dessas caminhadas, cada uma com comprimento 960 (com diferenças normais normais). Pequenos círculos abertos marcam seus pontos de partida. As olheiras marcam seus locais finais.15960
Essas encostas tendem a ser bem grandes. Gráficos de dispersão perfeitamente aleatórios desses muitos pontos sempre teriam inclinações muito próximas de zero. Se tivéssemos que descrever os padrões emergentes aqui, poderíamos dizer que maioria das caminhadas aleatórias 2D migra gradualmente de um local para outro. (Porém, esses não são necessariamente os locais de início e de ponto final!) Cerca de metade do tempo, então, a migração ocorre na direção diagonal - e a inclinação é alta.
O restante deste post esboça uma análise dessa situação.
(Xi)(W1,W2,…,Wn)Wiσ2
x=(x1,…,xn)
V(x)=1n∑(xi−x¯)2.
Uma boa maneira de calcular esse valor é obter metade da média de todas as diferenças ao quadrado:
V(x)=1n(n−1)∑j>i(xj−xi)2.
xXn
E(V(X))=1n(n−1)∑j>iE(Xj−Xi)2.
As diferenças são somas de variáveis iid,
Xj−Xi=Wi+1+Wi+2+⋯+Wj.
WkWkσ2
E((Wi+1+Wi+2+⋯+W2j))=(j−i)σ2.
Segue-se facilmente que
E(V(X))=1n(n−1)∑j>i(j−i)σ2=n+16σ2.
xy
E(C(X,Y)2)=3n6−2n5−3n2+2n480n2(n−1)2σ4.
XYn
ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n3−2n2+3n−2n3−n.
Although this is not constant, it rapidly approaches a limiting value of 9/40. Its square root, approximately 0.47, therefore approximates the expected absolute value of ρ(n) (and underestimates it).
I am sure I have made computational errors, but simulations bear out the asymptotic accuracy. In the following results showing the histograms of ρ2(n) for 1000 simulations each, the vertical red lines show the means while the dashed blue lines show the formula's value. Clearly it's incorrect, but asymptotically it is right. Evidently the entire distribution of ρ2(n) is approaching a limit as n increases. Similarly, the distribution of |ρ(n)| (which is the quantity of interest) will approach a limit.
This is the R
code to produce the figure.
f <- function(n){
m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
u <- matrix(rnorm(n*n.sim), nrow=n)
v <- matrix(rnorm(n*n.sim), nrow=n)
x <- apply(u, 2, cumsum)
y <- apply(v, 2, cumsum)
sim <- rep(NA_real_, n.sim)
for (i in 1:n.sim)
sim[i] <- cor(x[,i], y[,i])^2
z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
abline(v=mean(sim), lwd=2, col="Red")
abline(v=f(n), col="Blue", lwd=2, lty=3)
}