Mesma Média, Variação Diferente

Suponha que você tenha oito corredores correndo uma corrida; a distribuição de seus tempos de execução individuais é normal e cada um tem média de $11$ segundos, digamos. O desvio padrão do corredor um é o menor, dois o segundo menor, o terceiro menor, etc., e oito o maior. Duas perguntas estão me confundindo: (1) Qual é a probabilidade de o primeiro bater o último e (2) quem tem maior probabilidade de vencer a corrida?

Minhas respostas são $1/2$ e $8$ , respectivamente. Uma vez que partilham a mesma média, a probabilidade de que $\bar x_1-\bar x_8\lt 0$ é apenas $1/2$ , não? Como demonstrar rigorosamente a segunda parte e calcular uma probabilidade exata de vitória? Desde já, obrigado.

— George Tedder
fonte

@ Silverfish Ao comparar primeiro (modelado como a variável aleatória

) com o último (

, assumido independente de

), precisamos considerar apenas

. Isso tem uma distribuição contínua simétrica com média zero. A chance de que as primeiras batidas última é a chance de que

, que (por simetria e continuidade) é igual a

como reivindicado. Embora o último tenha uma chance maior de vencer a corrida, não há paradoxo: na maioria das vezes, quando os primeiros batimentos duram, alguém na verdade vence a corrida.

X_{1}

$X_1$

X_{n}

$X_n$

X_{1}

$X_1$

Z = X_{1} - X_{n}

$Z=X_1-X_n$

Z < 0

$Z\lt 0$

1 / 2

$1/2$

— whuber

@whuber Obrigado, eu consegui entender o que eu quis dizer - irá remover para evitar confusão. A figura 1/2 está correta, mas a resposta para comparar seus tempos médios

está incorreta e parece suscitar confusão com os meios da população. Enquanto você escreve, deve ser a diferença no

\bar{x_{i}}

$\bar{x_i}$

X_{i}

$X_i$

— Silverfish

@ Silver Isso destaca o perigo de assumir que sempre sabemos o que a notação de alguém significa, apenas porque parece familiar. Eu encobri essa questão (com linhas sobrepostas aparecendo em "

" e "

") porque o significado pretendido era claro o suficiente e implicava que nenhum deles poderia representar o significado de qualquer coisa: nesse contexto, eles devem representar a variáveis aleatórias em si (que escrevi

x_{1}

$x_1$

x_{8}

$x_8$

X_{1}

$X_1$

X_{n}

$X_n$

— whuber

Embora uma probabilidade exata não possa ser calculada (exceto em circunstâncias especiais com ), ela pode ser calculada numericamente rapidamente com alta precisão. Apesar dessa limitação, pode-se provar rigorosamente que o corredor com o maior desvio padrão tem a maior chance de vencer. A figura mostra a situação e mostra por que esse resultado é intuitivamente óbvio: $n \le 2$

As densidades de probabilidade para os tempos de cinco corredores são mostradas. Todos são contínuos e simétricos sobre uma média comum . (As densidades beta em escala foram usadas para garantir que todos os horários sejam positivos.) Uma densidade, desenhada em azul mais escuro, tem uma propagação muito maior. A parte visível em sua cauda esquerda representa os tempos que nenhum outro corredor normalmente consegue igualar. Como a cauda esquerda, com sua área relativamente grande, representa uma probabilidade considerável, o corredor com essa densidade tem maior chance de ganhar a corrida. (Eles também têm a maior chance de chegar em último!) $\mu$

Esses resultados são comprovados para mais do que apenas distribuições normais: os métodos apresentados aqui se aplicam igualmente bem a distribuições simétricas e contínuas. (Isso será de interesse para quem se opuser a usar distribuições normais para modelar os tempos de execução.) Quando essas suposições são violadas, é possível que o corredor com maior desvio padrão possa não ter a maior chance de ganhar (deixo a construção de contra-exemplos em leitores interessados), mas ainda podemos provar, sob suposições mais brandas, que o corredor com maior SD terá a melhor chance de ganhar, desde que o SD seja suficientemente grande.

A figura também sugere que os mesmos resultados poderiam ser obtidos considerando-se análogos unilaterais de desvio padrão (a chamada "semivariância"), que medem a dispersão de uma distribuição apenas para um lado. Um corredor com grande dispersão para a esquerda (para melhores tempos) deve ter uma chance maior de vencer, independentemente do que acontecer no restante da distribuição. Essas considerações nos ajudam a entender como a propriedade de ser a melhor (em um grupo) difere de outras propriedades, como médias.

Seja variáveis aleatórias representando os tempos dos corredores. A questão assume que eles são independentes e normalmente distribuídos com média comum . (Embora este seja literalmente um modelo impossível, porque apresenta probabilidades positivas para tempos negativos, ainda pode ser uma aproximação razoável da realidade, desde que os desvios padrão sejam substancialmente menores que .) $X_1, \ldots, X_n$ $\mu$ $\mu$

A fim de realizar o seguinte argumento, manter a suposição de independência, mas caso contrário assumir as distribuições do são dadas por , e que essas leis de distribuição pode ser qualquer coisa. Por conveniência, assuma também que a distribuição é contínua com a densidade . Posteriormente, conforme necessário, podemos aplicar suposições adicionais, desde que incluam o caso de distribuições normais. $X_i$ $F_i$ $F_n$ $f_n$

Para qualquer e infinitesimal , a chance de que o último corredor tem um tempo no intervalo e é o corredor mais rápido é obtido multiplicando todas as probabilidades relevantes (porque todos os momentos são independentes): $y$ $dy$ $(y-dy, y]$

Pr (X_{n} \in (y - d y, y], X_{1} > y, \dots, X_{n - 1} > y) = f_{n} (y) d y (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) .

$\Pr(X_n \in (y-dy, y], X_1 \gt y, \ldots, X_{n-1} \gt y) = f_n(y)dy(1-F_{1}(y))\cdots(1-F_{n-1}(y)).$

A integração de todas essas possibilidades mutuamente exclusivas gera

Pr (X_{n} \leq min (X_{1}, X_{2}, \dots, X_{n - 1})) = \int_{R} f_{n} (y) (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) d y .

$\Pr(X_n \le \min(X_1, X_2, \ldots, X_{n-1})) = \int_{\mathbb R} f_n(y)(1-F_1(y))\cdots(1-F_{n-1}(y)) dy.$

Para distribuições normais, essa integral não pode ser avaliada em formato fechado quando : precisa de avaliação numérica. $n\gt 2$

Esta figura representa o integrando de cada um dos cinco corredores com desvios padrão na proporção 1: 2: 3: 4: 5. Quanto maior o SD, mais a função é deslocada para a esquerda - e maior sua área se torna. As áreas são aproximadamente 8: 14: 21: 26: 31%. Em particular, o corredor com o maior DP tem 31% de chance de ganhar.

Embora não seja possível encontrar um formulário fechado, ainda podemos tirar conclusões sólidas e provar que é mais provável que o corredor com o maior SD ganhe. Precisamos estudar o que acontece quando o desvio padrão de uma das distribuições, dizem , mudanças. Quando a variável aleatória é rescaled por em torno da sua média, o seu SD é multiplicado por e vai alterar a $F_n$ $X_n$ $\sigma \gt 0$ $\sigma$ $f_n(y)dy$ $f_n(y/\sigma)dy/\sigma$ . Fazer a alteração da variável na integral fornece uma expressão para a chance do corredor ganhar, em função de : $y=x\sigma$ $n$ $\sigma$

ϕ (σ) = \int_{R} f_{n} (y) (1 - F_{1} (y σ)) \dots (1 - F_{n - 1} (y σ)) d y .

$\phi(\sigma) = \int_{\mathbb R} f_n(y)(1-F_1(y\sigma))\cdots(1-F_{n-1}(y\sigma)) dy.$

Suponha agora que as medianas de todas as distribuições sejam iguais e que todas as distribuições sejam simétricas e contínuas, com densidades . (Esse certamente é o caso nas condições da pergunta, porque uma mediana normal é sua média.) Por uma simples mudança (local) da variável, podemos assumir que essa mediana comum é ; a simetria significa e $n$ $f_i$ $0$ $f_n(y) = f_n(-y)$ para todos os . Essas relações nos permitem combinar o integral over com o integral over para dar $1 - F_j(-y) = F_j(y)$ $y$ $(-\infty, 0]$ $(0,\infty)$

ϕ (σ) = \int_{0}^{\infty} f_{n} (y) (\prod_{j = 1}^{n - 1} (1 - F_{j} (y σ)) + \prod_{j = 1}^{n - 1} F_{j} (y σ)) d y .

$\phi(\sigma) = \int_0^{\infty} f_n(y)\left(\prod_{j=1}^{n-1}\left(1-F_j(y\sigma)\right)+\prod_{j=1}^{n-1}F_j(y\sigma)\right) dy.$

A função é diferenciável. Sua derivada, obtida pela diferenciação do integrando, é uma soma de integrais em que cada termo tem a forma $\phi$

y f_{n} (y) f_{i} (y σ) (\prod_{j \neq i}^{n - 1} F_{j} (y σ) - \prod_{j \neq i}^{n - 1} (1 - F_{j} (y σ)))

$y f_n(y) f_i(y\sigma)\left(\prod_{j\ne i}^{n-1}F_j(y\sigma) - \prod_{j\ne i}^{n-1}(1-F_j(y\sigma))\right)$

para . $i=1, 2, \ldots, n-1$

As suposições que fizemos sobre as distribuições foram projetadas para garantir que para . Assim, como , cada termo no produto esquerdo excede o termo correspondente no produto certo, implicando que a diferença de produtos não é negativa. Os outros fatores são claramente não negativos porque as densidades não podem ser negativas e $F_j(x) \ge 1-F_j(x)$ $x\ge 0$ $x=y\sigma\ge 0$ $y f_n(y) f_i(y\sigma)$ . Podemos concluir que para , provando quea chance de o jogador ganhar aumenta com o desvio padrão de . $y\ge 0$ $\phi^\prime(\sigma) \ge 0$ $\sigma \ge 0$ $n$ $X_n$

$n$ $X_n$ $X_i$ $1/n$ $n$ $n$ $n$

— whuber
fonte

@Phonon Está correto. (Mas não confunda as distribuições com estimativas derivadas de amostras. A distribuição é um modelo matemático, não um conjunto de dados.) Aumentar o DP por um fator de

λ

$\lambda$ , digamos, estende uniformemente o eixo horizontal. Como (pela Lei da Probabilidade Total) a função de densidade cobrirá uma área unitária, esse trecho deve ser compensado por um trecho do eixo vertical por

1 / λ

$1/\lambda$ , preservando assim todas as áreas. Assim, SDs menores correspondem a picos mais altos e SDs maiores a picos mais curtos.

— whuber

Muito obrigado pela sua resposta, faz todo o sentido. Portanto, o conhecimento somente dos valores de pico nesse sentido é bastante importante.

— Phonon