Mostrar estimativa converge para percentil através de estatísticas de pedidos


10

Seja uma sequência de variáveis ​​aleatórias iid amostradas de uma distribuição alfa estável , com os parâmetros . α = 1,5 ,X1 1,X2,,X3nα=1.5,β=0 0,c=1.0,μ=1.0

Agora considere a sequência , em que , para .Y1 1,Y2,,YnYj+1 1=X3j+1 1X3j+2X3j+3-1 1j=0 0,,n-1 1

Quero estimar o percentil .0,01-

Minha idéia é executar uma espécie de simulação de Monte-Carlo:

l = 1;
while(l < max_iterations)
{
  Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
  Compute $0.01-$percentile of current repetition;
  Compute mean $0.01-$percentile of all the iterations performed;
  Compute variance of $0.01-$percentile of all the iterations performed;
  Calculate confidence interval for the estimate of the $0.01-$percentile;

  if(confidence interval is small enough)
    break;

}

Chamando a média de todos os percentis de amostra calculados como e sua variação , para calcular o intervalo de confiança apropriado para , eu recorro à forma Forte do Teorema do Limite Central :- μ n σ 2 n μ0,01-μ^nσ^n2μ

Seja uma sequência de variáveis ​​aleatórias iid com e . Defina a média da amostra como . Então, tem uma distribuição normal padrão limitante, ou seja, E [ X i ] = μ 0 < V [ X i ] = σ 2 < μ n = ( 1 / n ) Σ n i = 1 X i ( μ n - μ ) / X1 1,X2,E[XEu]=μ0 0<V[XEu]=σ2<μ^n=(1 1/n)Eu=1 1nXEuμ n -μ(μ^n-μ)/σ2/n

μ^n-μσ2/nnN(0 0,1 1).

e o teorema de Slutksy para concluir que

nμ^n-μσ^n2nN(0 0,1 1).

Então, um - intervalo de confiança para éμ(1 1-α)×100%μ

Euα=[μ^n-z1 1-α/2σ^n2n,μ^n+z1 1-α/2σ^n2n],
que é o -quantil da distribuição normal padrão.z1 1-α/2(1 1-α/2)

Questões:

1) Minha abordagem está correta? Como posso justificar a aplicação do CLT? Quero dizer, como posso mostrar que a variação é finita? (Eu tenho que olhar para a variação de ? Porque eu não acho que seja finito ...)Yj

2) Como posso mostrar que a média de todos os percentis da amostra computados converge para o valor real do percentil ? (Eu devo usar estatísticas de pedidos, mas não tenho certeza de como proceder; as referências são apreciadas.)0,01-0,01-


3
Todos os métodos aplicados à amostra de medianas em stats.stackexchange.com/questions/45124 também se aplicam a outros percentis. Com efeito, sua pergunta é idêntica àquela, mas apenas substitui o 50º percentil pelo 1º (ou 0,01 talvez?).
whuber

@whuber, sua resposta a essa pergunta é extremamente boa. no entanto, Glen_b declara, no final de seu post (a resposta aceita), que a normalidade aproximada "não vale para quantis extremos, porque o CLT não entra em ação lá (a média de Zs não será assintoticamente normal" Você precisa de uma teoria diferente para valores extremos ". Quão preocupado eu deveria estar com essa afirmação?
217 Maya

2
Acredito que ele realmente não quis dizer quantis extremos , mas apenas os extremos . (De fato, ele corrigiu esse lapso no final da mesma frase, referindo-se a eles como "valores extremos".) A distinção é que um quantil extremo, como o percentil 0,01 (que marca o 1 / 10000º inferior da distribuição) estabilizará, no limite, porque mais e mais dados em uma amostra ainda ficarão abaixo e mais e mais ficarão acima desse percentil. Com um extremo (como o máximo ou o mínimo), esse não é mais o caso.
whuber

Este é um problema que deve ser resolvido em geral usando a teoria empírica do processo. Alguma ajuda sobre o seu nível de treinamento seria útil.
AdamO 27/10/16

Respostas:


2

A variação de não é finita. Y Isso é porque uma variável alfa-estável com α = 3 / 2 (uma distribuição Holtzmark ) tem uma expectativa finito μ mas a sua variância é infinita. Se Y tivesse uma variância finita σ 2 , explorando a independência do X i e a definição de variância, poderíamos calcularXα=3/2μYσ2XEu

σ2=Var(Y)=E(Y2)-E(Y)2=E(X1 12X22X32)-E(X1 1X2X3)2=E(X2)3-(E(X)3)2=(Var(X)+E(X)2)3-μ6=(Var(X)+μ2)3-μ6.

Essa equação cúbica em tem pelo menos uma solução real (e até três soluções, mas não mais), o que implica que Var ( X ) seria finito - mas não é. Essa contradição comprova a afirmação.Var(X)Var(X)


Vamos passar para a segunda pergunta.

Qualquer quantil de amostra converge para o quantil verdadeiro à medida que a amostra cresce. Os próximos parágrafos comprovam esse ponto geral.

Seja a probabilidade associada (ou qualquer outro valor entre 0 e 1 , exclusivo). Faça F para a função de distribuição, de modo a que Z q = F - 1 ( q ) é o q th quantil.q=0,010 01 1FZq=F-1 1(q)qº

Tudo o que precisamos assumir é que (a função quantil) é contínua. Isso nos assegura que para qualquer ϵ > 0 existem probabilidades q - < q e q + > q para as quaisF-1 1ϵ>0 0q-<qq+>q

F(Zq-ϵ)=q-,F(Zq+ϵ)=q+,

e que como , o limite do intervalo [ q - , q + ] é { q } .ϵ0 0[q-,q+]{q}

Considere qualquer amostra iid do tamanho . O número de elementos deste exemplo que são menos do que Z q - tem um binomial ( q - , N ) de distribuição, porque cada elemento tem, independentemente, uma possibilidade q - de ser menos do que Z q - . O Teorema do Limite Central (o usual!) Implica que, para n suficientemente grande , o número de elementos menor que Z q - é dado por uma distribuição Normal com média n q - e variação n q - (nZq-(q-,n)q-Zq-nZq-nq- (para uma aproximação arbitrariamente boa). Seja o CDF da distribuição normal padrão Φ . A chance de que essa quantidade exceda n q é, portanto, arbitrariamente próxima denq-(1 1-q-)Φnq

1 1-Φ(nq-nq-nq-(1 1-q-))=1 1-Φ(nq-q-q-(1 1-q-)).

Como o argumento no lado direito é um múltiplo fixo de Φ , cresce arbitrariamente grande à medida quencresce. ComoΦé um CDF, seu valor se aproxima arbitrariamente próximo de1, mostrando que o valor limite dessa probabilidade é zero.nnΦ1 1

Em palavras: no limite, é quase certo que dos elementos da amostra não sejam menores que Z q - . Um argumento análogo prova que é quase certo que n q dos elementos da amostra não seja maior que Z q + . Juntos, isso implica que o quantil q de uma amostra suficientemente grande é extremamente provável que esteja entre Z q - ϵ e Z q + ϵ .nqZq-nqZq+qZq-ϵZq+ϵ

ϵ1 1-αnnq1 1-αϵZq


q=0,50

Figura: histograma de 0,01 quantis de Y com n = 300 para 1000 iterações

q=0,01Yn=300Y

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
  Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
  log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
     main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
     xlab="Log(-Y_q)",
     sub=paste("Median is", signif(m, 4), 
               "Negative log is", signif(log(-m), 4)),
     cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.