Existe alguém mais rápido que Usain Bolt hoje?

EDIT: Estou mais interessado nas questões técnicas e na metodologia para determinar a probabilidade de um máximo "verdadeiro" em uma determinada população, dada uma estatística de amostra. Há problemas em estimar a probabilidade de corredores mais rápidos do que Bolt nos tempos recordes, que são óbvios e sutis. Me humor, imaginando que este não é o caso.

Usain Bolt é o humano mais rápido medido para os 100m. No entanto, dado o pequeno número de atletas, parece provável que o "verdadeiro" humano mais rápido vivo esteja sentado em um sofá em algum lugar e nunca tenha tentado uma carreira de corrida competitiva.

Estou tentando usar o fato de que a diferença entre amostras nas caudas da distribuição normal se torna cada vez menor. Estou usando isso para calcular a probabilidade de que exista alguém mais rápido que Usain Bolt, comparando Usain ao 2º mais rápido, 3º mais rápido e assim por diante.

Para fazer isso, eu estou tentando calcular o maior valor que existe além "Usain Bolt" tomando a derivada da CDF da distribuição normal em relação à , elevando que ao º (onde é de cerca de 7.000 milhões ou o número de amostras abaixo do "máximo" - a lógica por trás disso é descrita na página da Wikipedia sobre problemas de tanques alemães , que generaliza entre diferentes distribuições), por exemplo: $y$ $n$ $n$

$\int_{0}^{\infty}y f_{Y_N} (y)dy = \lambda n \int_{0}^{\infty} y \left [ \tfrac12\left[1 + \operatorname{erf}\left( \frac{y-\mu}{\sigma\sqrt{2}}\right)\right] \right ]^{n-1} \frac{1}{\sqrt{2\pi\sigma^2}}\, e^{-\frac{(y - \mu)^2}{2 \sigma^2}}dy$

Essa é uma maneira válida de calcular a probabilidade de que exista alguém mais rápido que Usain Bolt?
Existe um nome para esse tipo de pergunta fora do "Problema do tanque alemão para outras distribuições"
Existe uma boa maneira de estimar o desvio padrão das amostras extremas de uma distribuição? É fácil encontrar informações sobre os traços mais rápidos de 100m de todos os tempos, é difícil encontrar médias e variações)

Agradecemos sua paciência ao lidar com um programador sem experiência no tópico.

normal-distribution maximum

— ŹV -
fonte

Você assume que se você é um atleta é independente da sua velocidade de corrida. O que é bom, mas questionável.

— precisa saber é

@bayerj Sim, acho bem claro que essa seria uma maneira muito ruim de prever o próximo desafiante olímpico. No entanto, parece uma pergunta interessante em geral e estou tentando responder da melhor maneira possível com a esperança de que alguém tenha pena e me ajude.

— ŹV -

Acho que a pergunta está mal colocada, pois a qualidade de ser "rápido (er)", aqui, refere-se a um potencial genético ou talento atlético e não à capacidade real de atingir alta velocidade.

— Digio 13/09/17

@Digio Substitua "mais rápido" por "tem número de série mais alto", assumindo que a empresa "Fubarco" fabrica um conjunto de produtos com números de série normalmente distribuídos.

— ŹV

Motivar uma pergunta com um exemplo geralmente é uma coisa boa a se fazer. No entanto, este exemplo parece estar distraindo as pessoas do que você realmente está tentando perguntar. Você poderia editar isso para discutir a situação que realmente está enfrentando?

— gung - Restabelece Monica

Respostas:

Ao contrário de outras respostas, eu argumentaria que você pode dizer algo sobre as habilidades de Bolts, considerando os dados disponíveis. Primeiro de tudo, vamos restringir sua pergunta. Você está perguntando sobre o ser humano mais rápido, mas como há uma diferença nas distribuições das velocidades de corrida para homens e mulheres, onde as melhores mulheres corredoras parecem ser um pouco mais lentas que as corridas de melhor homem, devemos nos concentrar nos corredores masculinos. Para obter alguns dados, podemos observar as melhores performances do ano em 100 corridas dos últimos 45 anos . Há várias coisas a serem observadas sobre esses dados:

Esses são os melhores tempos de execução, para que não nos digam sobre as habilidades de todos os seres humanos, mas sobre as velocidades mínimas alcançadas.
Assumimos que esses dados refletem uma amostra dos melhores corredores do mundo. Embora possa ter acontecido que havia corredores ainda melhores que não participaram do campeonato, essa suposição parece ser bastante razoável.

Primeiro, vamos discutir como não analisar esses dados. Você pode notar que, se planejarmos os tempos de execução contra o tempo, observaremos uma forte relação linear.

Isso pode levar você a usar a regressão linear para prever quantos corredores melhores poderíamos observar nos próximos anos. Porém, isso seria uma péssima idéia, o que inevitavelmente levaria à conclusão de que em aproximadamente dois mil anos os humanos seriam capazes de correr 100 metros em zero segundos e depois disso começariam a obter tempos de execução negativos! Isso é obviamente absurdo, pois podemos imaginar que existe algum tipo de limite biológico e físico de nossas capacidades, que é desconhecido para nós.

$Y = \max(X_1,X_2,\dots,X_n)$ $X_1,X_2,\dots,X_n$ $Y_i$ $Z_1,Z_2,\dots,Z_k$ $-Z_i$

$1\%$ cauda da distribuição. Portanto, se mantivermos esses dados e essa análise de exemplo de brinquedo, concluiríamos que os tempos de execução muito menores são improváveis (mas obviamente possíveis). O problema óbvio dessa análise é que ignora o fato de que vimos melhorias ano a ano dos melhores tempos de execução. Isso nos leva de volta ao problema descrito na primeira parte da resposta, ou seja, assumir um modelo de regressão aqui é arriscado. Outra coisa que poderia ser aprimorada é que poderíamos usar a abordagem bayesiana e assumir informações informativas anteriores que explicariam algum conhecimento fora de dados sobre os tempos de execução fisiologicamente possíveis, que ainda não foram observados (mas, tanto quanto eu sei, isso é desconhecido no momento). Finalmente, uma teoria semelhante de valor extremo já foi usada na pesquisa esportiva, por exemplo, por Einmahl e Magnus (2008) noRegistros no Atletismo por meio da teoria de valores extremos .

Você poderia protestar por não ter perguntado sobre a probabilidade do tempo de corrida mais rápido, mas sobre a probabilidade de observar um corredor mais rápido. Infelizmente, aqui não podemos fazer muito, pois não sabemos qual é a probabilidade de um corredor se tornar um atleta profissional e os tempos de corrida registrados estarão disponíveis para ele. Isso não acontece aleatoriamente e há muitos fatores que contribuem para o fato de que alguns corredores se tornam atletas profissionais e outros não (ou mesmo que alguém goste de correr e correr). Para isso, teríamos que ter dados detalhados de toda a população sobre corredores, além disso, como você está perguntando sobre os extremos da distribuição, os dados teriam que ser muito grandes. Portanto, concordo com as outras respostas.

— Tim
fonte

Meu primeiro instinto é que é uma má ideia, mas deixe-me explicar um pouco o porquê.

1) Você deseja medir uma variável não observável, habilidade de corrida latente, com uma observável, tempos de corrida registrados. Tudo bem, mas: no problema do tanque alemão, os números de série são todos gerados a partir da mesma distribuição uniforme. No seu problema, você deve inferir a habilidade variável latente (de 7 bilhões de pessoas) a partir dos tempos de execução variáveis observáveis. No GTP, vários números de série são conhecidos. No seu problema, você não coletou dados e está apenas no máximo (Bolt). Além disso, você parece presumir que essa habilidade latente não observável não está correlacionada com os tempos de execução reais, a ponto de ser possível que alguém que nunca tenha executado seja melhor que Bolt. Parece absurdo!

2) Atletas não são amostras aleatórias da população. Eles são selecionados cuidadosamente por várias tentativas. Se presumirmos que todos os que são capazes de competir provavelmente já correram com alguém pelo menos uma vez na vida e que tomaram uma decisão sobre se devem continuar a um nível mais alto de competição com base na frequência ou no quanto ganham. raças - então não parece tão implausível que Bolt seja realmente o ser humano mais rápido que existe.

Estas são apenas as primeiras razões que vêm à mente. Honestamente, você está em uma missão de tolo com isso. Não há como medir a "probabilidade" do tipo de coisa que você está falando.

— hessian degenerado
fonte

Outro entrevistado fez observações semelhantes e é indubitavelmente verdade que estimar a probabilidade de existir alguém mais rápido que o Sr. Bolt nessa base é muito falho. Também seria mais interessante saber se a lógica técnica da previsão baseada nesses valores extremos está correta em princípio.

— ŹV -

Eu sugeriria abstrair a pergunta para chegar ao cerne do que você realmente está tentando perguntar, pois o contexto vai criar muita distração. Ainda não está claro para mim o que a "distribuição normal" a que você está se referindo representa. Tempos de execução reais? Capacidade de corrida dos atletas?

— hessian degenerado

-2

A resposta é não.

Você está assumindo que existe uma amostra da população (atletas) e Bolt é o máximo nessa amostra. Então, você está procurando a probabilidade de que o máximo da população seja maior que o máximo da amostra. Essa é a sua hipótese.

E se sua suposição estiver errada e que a amostra fosse realmente a população?

Posso argumentar razoavelmente que todas as pessoas que podem correr tiveram a chance de vencê-lo. Ninguém o fez, então ele é o verdadeiro máximo da população da Terra.

É claro que os atletas não são uma amostra aleatória. Espero que não haja dúvida sobre isso. Há um grau de aleatoriedade em como alguém se torna um atleta, é claro. Por outro lado, se alguém não é um atleta, suas habilidades e realizações atléticas não se comparam ao atleta. Posso presumir que alguém PODE POTENCIALMENTE correr mais rápido que Bolt, dadas todas as condições para o treinamento E ter treinado tanto quanto Bolt. No entanto, é zero a probabilidade de você puxar um não atleta e ele vencer Bolt em 100m em condições de pista e campo.

— Aksakal
fonte

Estou mais interessado na metodologia por trás dele está correta, imagine Tanques cujos números de série são normalmente distribuídos w / duplicatas em vez de correr velocidade talvez :)

— ZV -