Quantiles da combinação de distribuições normais

Tenho informações sobre as distribuições de dimensões antropométricas (como a extensão dos ombros) para crianças de diferentes idades. Para cada idade e dimensão, quero dizer, desvio padrão. (Eu também tenho oito quantis, mas acho que não poderei obter o que quero deles.)

Para cada dimensão, gostaria de estimar quantis específicos da distribuição de comprimento. Se eu assumir que cada uma das dimensões é normalmente distribuída, posso fazer isso com os meios e os desvios padrão. Existe uma fórmula bonita que eu possa usar para obter o valor associado a um quantil específico da distribuição?

O inverso é bastante fácil: para um valor específico, obtenha a área à direita do valor para cada uma das distribuições normais (idades). Soma os resultados e divida pelo número de distribuições.

Atualização : Aqui está a mesma pergunta em forma gráfica. Suponha que cada uma das distribuições coloridas seja normalmente distribuída.

Além disso, eu obviamente posso tentar vários comprimentos diferentes e continuar alterando-os até chegar a um que esteja próximo o suficiente do quantil desejado para minha precisão. Gostaria de saber se existe uma maneira melhor do que isso. E se essa é a abordagem correta, existe um nome para ela?

— Thomas Levine
fonte

Você está perguntando se existe uma fórmula simples para calcular quantis de uma mistura de distribuições normais? Nesta aplicação, você solicitaria os quantis (digamos) da extensão do ombro, independentemente da idade, com base nos parâmetros específicos da idade . Esta é uma interpretação correta?

— whuber

Infelizmente, a função quantílica normal padrão (a partir da qual todas as outras podem ser determinadas, uma vez que o normal é uma família em escala de localização) não admite uma forma fechada (isto é, uma "fórmula bonita"). A coisa mais próxima de uma forma fechada é que a função quantílica normal padrão é a função, , que satisfaz a equação diferencial $w$

\frac{d^{2} w}{d p^{2}} = w {(\frac{d w}{d p})}^{2}

$\frac{d^2 w}{d p^2} = w \left(\frac{d w}{d p}\right)^2$

e as condições iniciais e $w(1/2) = 0$ $w'(1/2) = \sqrt{2 \pi}$

qnorm(p, mean=mu, sd=sigma)

para obter o ésimo quantil do $p$ $N(\mu, \sigma^2)$

Edit: Com uma compreensão modificada do problema, os dados são gerados a partir de uma mistura de normais, para que a densidade dos dados observados seja:

p (x) = \sum_{i} w_{i} p_{i} (x)

$p(x) = \sum_{i} w_{i} p_{i}(x)$

onde e cada é uma densidade normal com média $\sum_{i} w_{i} = 1$ $p_{i}(x)$ $\mu_{i}$ $\sigma_{i}$

F (y) = \int_{- \infty}^{y} \sum_{i} w_{i} p_{i} (x) d x = \sum_{i} w_{i} \int_{- \infty}^{y} p_{i} (x) = \sum_{i} w_{i} F_{i} (y)

$F(y) = \int_{-\infty}^{y} \sum_{i} w_{i} p_{i}(x) dx = \sum_{i} w_{i} \int_{-\infty}^{y} p_{i}(x) = \sum_{i} w_{i} F_{i}(y)$

$F_{i}(x)$ $\mu_{i}$ $\sigma_{i}$ $F^{-1}$

$F^{-1}$ $w_{i}, \mu_{i}, \sigma_{i}$ $p$

# evaluate the function at the point x, where the components 
# of the mixture have weights w, means stored in u, and std deviations
# stored in s - all must have the same length.
F = function(x,w,u,s) sum( w*pnorm(x,mean=u,sd=s) )

# provide an initial bracket for the quantile. default is c(-1000,1000). 
F_inv = function(p,w,u,s,br=c(-1000,1000))
{
   G = function(x) F(x,w,u,s) - p
   return( uniroot(G,br)$root ) 
}

#test 
# data is 50% N(0,1), 25% N(2,1), 20% N(5,1), 5% N(10,1)
X = c(rnorm(5000), rnorm(2500,mean=2,sd=1),rnorm(2000,mean=5,sd=1),rnorm(500,mean=10,sd=1))
quantile(X,.95)
    95% 
7.69205 
F_inv(.95,c(.5,.25,.2,.05),c(0,2,5,10),c(1,1,1,1))
[1] 7.745526

# data is 20% N(-5,1), 45% N(5,1), 30% N(10,1), 5% N(15,1)
X = c(rnorm(5000,mean=-5,sd=1), rnorm(2500,mean=5,sd=1),
      rnorm(2000,mean=10,sd=1), rnorm(500, mean=15,sd=1))
quantile(X,.95)
     95% 
12.69563 
F_inv(.95,c(.2,.45,.3,.05),c(-5,5,10,15),c(1,1,1,1))
[1] 12.81730

— Macro
fonte

O último parágrafo da pergunta sugere que outra coisa está sendo solicitada. Eu pedi esclarecimentos.

— whuber

palpite de whuber está correto. Eu adicionei uma imagem para tornar a pergunta menos confusa.

— Thomas Levine

Agora há um pacote R para lidar com esse problema, consulte stats.stackexchange.com/questions/390931/…

— Christoph Hanck 8/19