Perguntei por que havia uma diferença entre a média do máximo de 100 empates de uma distribuição normal aleatória e o 98º percentil da distribuição normal. A resposta que recebi de Rob Hyndman foi em grande parte aceitável, mas tecnicamente muito densa para ser aceita sem revisão. Fiquei me perguntando se era possível fornecer uma resposta que explique em linguagem simples intuitivamente compreensível por que esses dois valores não são iguais.
Em última análise, minha resposta pode ser insatisfatoriamente circular; mas conceitualmente, a razão max (rnorm (100)) tende a ser maior que qnorm (.98) é, em suma, porque, em média, a maior das 100 pontuações aleatórias distribuídas normalmente excederá ocasionalmente o valor esperado. No entanto, essa distorção não é simétrica, uma vez que quando pontuações baixas são sorteadas, é improvável que elas acabem sendo as mais altas das 100 pontuações. Cada sorteio independente é uma nova chance de exceder o valor esperado ou de ser ignorado porque o valor obtido não é o máximo dos 100 valores sorteados. Para uma demonstração visual comparar o histograma do máximo de 20 valores com o histograma do máximo de 100 valores, a diferença na inclinação, especialmente nas caudas, é acentuada.
Cheguei a essa resposta indiretamente enquanto trabalhava com um problema / pergunta relacionada que eu havia perguntado nos comentários. Especificamente, se eu descobrisse que as pontuações de alguém estavam classificadas no percentil 95, eu esperaria que, em média, se as colocasse em uma sala com 99 outros participantes, sua classificação seria em média 95. Isso acaba sendo mais ou menos o caso (código R) ...
for (i in 1:NSIM)
{
rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)
Como uma extensão dessa lógica, eu também esperava que, se eu pegasse 100 pessoas em uma sala e selecionasse a pessoa com a 95ª pontuação mais alta, pegasse outras 99 pessoas e fizesse o mesmo teste, que, em média, a pessoa selecionada faria. ocupar o 95º lugar no novo grupo. Mas esse não é o caso (código R) ...
for (i in 1:NSIM)
{
testtakers <- rnorm(100)
testtakers <- testtakers[order(testtakers)]
testtakers <- testtakers[order(testtakers)]
ranked95 <- testtakers[95]
rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)
O que diferencia o primeiro caso do segundo é que, no primeiro caso, a pontuação do indivíduo os coloca exatamente no percentil 95. No segundo caso, sua pontuação pode ser um pouco maior ou menor que o percentil 95 verdadeiro. Como eles não podem ter uma classificação maior que 100, os grupos que produzem uma pontuação na classificação 95 que está realmente no percentil 99 ou superior não podem compensar (em termos de classificação média) aqueles casos em que a pontuação na classificação 95 é muito menor que a verdadeira 90 percentil. Se você observar os histogramas para os dois vetores de classificação fornecidos nesta resposta, é fácil ver que há uma restrição de alcance nas extremidades superiores que é uma conseqüência desse processo que descrevi.