Soma de variáveis aleatórias normais

Considere uma amostra de n rv normais normais independentes. Gostaria de identificar uma maneira sistemática de calcular a probabilidade de ter a soma de um subconjunto deles maior que a soma do restante dos RVs. Um exemplo de caso: População de peixe. Média: 10 kg, stdv: 3 kg. Eu pesco cinco peixes (n = 5). Qual é a probabilidade de dois peixes pesarem mais do que o resto dos três peixes? As etapas a serem seguidas são calcular o prob para cada combinação de peixes e, em seguida, usar a fórmula de exclusão de inclusão para sua união. Existe algo mais inteligente? Nota: se quatro peixes foram considerados, a probabilidade de ter dois deles mais pesados que os outros dois deve ser um. Como isso pode ser calculado imediatamente? Obrigado pelas respostas.

normal-distribution independence

— Manos
fonte

Você certamente poderia fazer simulação.

— Peter Flom

@ whuber - Você dá uma ótima resposta, assumindo que temos dois específicos em mente (ou escolhe dois aleatoriamente). Meu passe inicial na leitura pensou que estava perguntando se havia algum subconjunto de 2 tal que a soma fosse maior que o restante (como evidenciado pela alegação de que, se houvesse 4 peixes, a probabilidade seria 1); nesse caso, deseja examinar a distribuição dos dois maiores versus a distribuição do restante e precisaria mergulhar nas estatísticas de pedidos. A simulação sugere nessa situação a probabilidade é de aproximadamente 0,464.

— Dason 11/04/19

@ Jason Obrigado por apontar isso: é uma interpretação muito plausível e que eu não tinha concebido. Também explica por que Peter estava sugerindo simulação, porque esse é um problema muito mais complicado. Acho que você está certo sobre as estatísticas de pedidos, porque podemos reformular o problema perguntando "qual é a chance de que a soma das

k

$k$ maior de

n

$n$ valores excede a soma do

n - k

$n-k$ menores? "Embora possamos escrever o valor como uma integral, em geral ele requer avaliação numérica e rapidamente se torna oneroso como

n

$n$ cresce.

— whuber

@Manos - Se o 1º e o 3º somados fossem maiores que o 2º, 4º e 5º ... então o 1º e o 2º somados seriam maiores que o 3º, 4º e 5º e também atenderiam aos seus critérios. Portanto, em termos de verificar se algum subconjunto atende aos critérios, precisamos apenas verificar se o k superior se soma a algo maior que o nk inferior.

— Dason 11/04/19

Eles poderiam. Mas, como whuber menciona, não é um problema fácil. A simulação proporcionaria um resultado muito mais fácil para qualquer situação específica.

— Dason 11/04/19

Seu exemplo sugere que não são apenas os $n$ variáveis $X_1,X_2,\ldots,X_n$ independentes, eles também têm a mesma distribuição normal. Deixe seus parâmetros serem $\mu$ (a média) e $\sigma^2$ (a variação) e suponha que o subconjunto consista em $k$ dessas variáveis. Podemos também indexar as variáveis para que $X_1,\ldots, X_k$ são este subconjunto.

A pergunta pede calcular a chance de que a soma do primeiro $k$ variáveis são iguais ou excedem a soma do resto:

p_{n, k} (μ, σ) = Pr (X_{1} + \dots + X_{k} \geq X_{k + 1} + \dots + X_{n}) = Pr (Y \leq 0)

$p_{n,k}(\mu,\sigma) = \Pr(X_1+\cdots+X_k \ge X_{k+1}+\cdots+X_n ) = \Pr(Y \le 0)$

Onde

Y = - (X_{1} + \dots + X_{k}) + (X_{k + 1} + \dots + X_{n}) .

$Y = -(X_1+\cdots+X_k) + (X_{k+1}+\cdots+X_n).$

$Y$ é uma combinação linear de variáveis normais independentes e, portanto, tem uma distribuição normal - mas qual? As leis da expectativa e variação imediatamente nos dizem

E [Y] = - k μ + (n - k) μ = (n - 2 k) μ

$E[Y] = -k\mu + (n-k)\mu = (n-2k)\mu$

Var (Y) = k σ^{2} + (n - k) σ^{2} = n σ^{2} .

$\operatorname{Var}(Y) = k \sigma^2 + (n-k)\sigma^2 = n\sigma^2.$

Portanto, tem uma distribuição normal padrão com a função de distribuição onde a resposta é

Z = \frac{Y - (n - 2 k) μ}{σ \sqrt{n}}

$Z=\frac{Y - (n-2k)\mu}{\sigma\sqrt{n}}$

Φ,

$\Phi,$

$p_{n, k} (μ, σ) = Pr (Y \leq 0) = Pr (Z \leq - \frac{(n - 2 k) μ}{σ \sqrt{n}}) = Φ (- \frac{(n - 2 k) μ}{σ \sqrt{n}}) .$ $p_{n,k}(\mu,\sigma) = \Pr(Y \le 0) = \Pr\left(Z \le -\frac{(n-2k)\mu}{\sigma\sqrt{n}}\right) = \Phi\left(-\frac{(n-2k)\mu}{\sigma\sqrt{n}}\right).$

Na questão, e onde $n=5,k=2,\mu=10,$ $\sigma=3,$

p_{5, 2} (10, 3) = Φ (- \frac{(5 - 2 (2)) 10}{3 \sqrt{10}}) \approx 0.0680186.

$p_{5,2}(10,3) = \Phi\left(-\frac{(5-2(2))10}{3\sqrt{10}}\right)\approx 0.0680186.$

Generalização

Pouco precisa mudar nessa análise, mesmo quando os têm distribuições normais diferentes ou estão correlacionados: você só precisa assumir que eles têm uma distribuição Normal variável para garantir que sua combinação linear ainda tenha uma distribuição Normal. Os cálculos são realizados da mesma maneira e resultam em uma fórmula semelhante. $X_i$ $n$

Verifica

Um comentarista sugeriu resolver isso com simulação. Embora isso não seja uma solução, é uma maneira decente de verificar uma solução rapidamente. Assim, Rpodemos estabelecer as entradas da simulação de alguma maneira arbitrária, como

n <- 5
k <- 2
mu <- 10
sigma <- 3
n.sim <- 1e6 # Simulation size
set.seed(17) # For reproducible results

e simule esses dados e compare as somas com essas duas linhas:

x <- matrix(rnorm(n*n.sim, mu, sigma), ncol=n)
p.hat <- mean(rowSums(x[, 1:k]) >= rowSums(x[, -(1:k)]))

O pós-processamento consiste em encontrar a fração de conjuntos de dados simulados em que uma soma excede a outra e compará-la à solução teórica:

se <- sqrt(p.hat * (1-p.hat) / n.sim)
p <- pnorm(-(n-2*k)*mu / (sigma * sqrt(n)))
signif(c(Simulation=p.hat, Theory=p, `Z-score`=(p.hat-p)/se), 3)

A saída neste caso é

Simulation     Theory    Z-score 
    0.0677     0.0680    -1.1900

O acordo está próximo e o pequeno escore z absoluto nos permite atribuir a discrepância a flutuações aleatórias, em vez de qualquer erro na derivação teórica.

— whuber
fonte

Também podemos assumir, sem perda de generalidade, que ; intuitivamente, podemos calcular tudo em termos de

σ = 1

$\sigma=1$

\frac{μ}{σ}

$\frac {\mu}{\sigma}$

— Acccumulation

@ Accumulation Está correto e é uma boa maneira de prosseguir. De fato, esse fato decorre imediatamente da observação de que é possível definir arbitrariamente a unidade de medida para que sem alterar o problema. Achei conveniente não precisar explicar isso, porque não simplificou sensivelmente a análise.

σ = 1

$\sigma=1$

— whuber

Soma de variáveis ​​aleatórias normais

Generalização

Verifica

Soma de variáveis aleatórias normais