Esta questão surge muito de várias formas. O que é comum a eles é
Como posso combinar estatísticas baseadas no momento que foram computadas a partir de subconjuntos disjuntos dos meus dados?
A aplicação mais simples refere-se a dados que foram divididos em dois grupos. Você sabe o tamanho do grupo e o meio do grupo. Somente em termos dessas quatro quantidades, qual é a média geral dos dados?
Outras aplicações generalizam de médias a variações, desvios padrão, matrizes de covariância, assimetria e estatística multivariada; e pode envolver vários subgrupos de dados. Observe que muitas dessas quantidades são combinações um pouco complicadas de momentos: o desvio padrão, por exemplo, é a raiz quadrada de uma combinação quadrática do primeiro e do segundo momento (quadrado médio e quadrado médio).
Todos esses casos são facilmente tratados, reduzindo os vários momentos a somas, porque as somas são óbvia e facilmente combinadas: elas são adicionadas. Matematicamente, tudo se resume a isso: você tem um lote de dados que foram separados em grupos separados de tamanhos j 1 , j 2 , … , j g : ( x 1 , x 2 , … , x j 1 ;X= ( x1 1, x2, … , Xn)j1 1, j2, … , Jg . Vamos chamar o i- ésimo grupo X ( i ) = ( x j i + 1 , x j i + 2 , … , x j i( x1 1, x2, … , Xj1 1; xj1 1+ 1, … , Xj1 1+ j2; xj1 1+ j2+ 1, ... ; ... ; … , Xn)Eu. Por definição, ok-ésimomomentode qualquer lote de dadosy1,…,yjé a média dask-potências,X( I )= ( xjEu+ 1, xjEu+ 2, … , Xji + 1)ky1 1, … , Yjk
μk( y) = ( yk1 1+ yk2+ ⋯ + ykj) / j.
Obviamente é a soma das k- ésimas potências. Portanto, referindo-se à nossa decomposição anterior de dados em subgrupos g , podemos dividir uma soma de n poderes em grupos de somas, obtendoj μk( y)kgn
n μk( X)= ( xk1 1+ xk2+ ⋯ + xkn)= ( xk1 1+ xk2+ ⋯ + xkj1 1) +⋯+ ( xkj1 1+ ⋯ + jg- 1+ 1+ xkj1 1+ ⋯ + jg- 1+ 2+ ⋯ + xkn)= j1 1μk( X( 1 )) + j2μk( X( 2 )) + ⋯ + jgμk( X( g)) .
Dividir por exibe o k- ésimo momento de todo o lote em termos dos k- ésimos momentos de seus subgrupos.nkk
No presente pedido, as entradas na matriz de covariância são, obviamente, covariâncias, que são expressáveis em termos de segundos momentos e primeiros momentos multivariados. A parte principal do cálculo se resume a isso: a cada etapa, você se concentrará em dois componentes específicos dos seus dados multivariados; vamos chamá-los de e y . Os números que você está vendo estão no formatoxy
( ( x1 1, y1 1) , ( x2, y2) , … , ( Xn, yn) ) ,
gxEuyEu( 1 , 1 )μ( 1 , 1 )n
n - 1nn - 1jEu- 1njEu
n