EDIT: Estou mais interessado nas questões técnicas e na metodologia para determinar a probabilidade de um máximo "verdadeiro" em uma determinada população, dada uma estatística de amostra. Há problemas em estimar a probabilidade de corredores mais rápidos do que Bolt nos tempos recordes, que são óbvios e sutis. Me humor, imaginando que este não é o caso.
Usain Bolt é o humano mais rápido medido para os 100m. No entanto, dado o pequeno número de atletas, parece provável que o "verdadeiro" humano mais rápido vivo esteja sentado em um sofá em algum lugar e nunca tenha tentado uma carreira de corrida competitiva.
Estou tentando usar o fato de que a diferença entre amostras nas caudas da distribuição normal se torna cada vez menor. Estou usando isso para calcular a probabilidade de que exista alguém mais rápido que Usain Bolt, comparando Usain ao 2º mais rápido, 3º mais rápido e assim por diante.
Para fazer isso, eu estou tentando calcular o maior valor que existe além "Usain Bolt" tomando a derivada da CDF da distribuição normal em relação à , elevando que ao n º (onde n é de cerca de 7.000 milhões ou o número de amostras abaixo do "máximo" - a lógica por trás disso é descrita na página da Wikipedia sobre problemas de tanques alemães , que generaliza entre diferentes distribuições), por exemplo:
Essa é uma maneira válida de calcular a probabilidade de que exista alguém mais rápido que Usain Bolt?
Existe um nome para esse tipo de pergunta fora do "Problema do tanque alemão para outras distribuições"
Existe uma boa maneira de estimar o desvio padrão das amostras extremas de uma distribuição? É fácil encontrar informações sobre os traços mais rápidos de 100m de todos os tempos, é difícil encontrar médias e variações)
Agradecemos sua paciência ao lidar com um programador sem experiência no tópico.