Cálculo do novo desvio padrão usando o desvio padrão antigo após alteração no conjunto de dados

Eu tenho uma matriz de $n$ valores reais, que tem média $\mu_{old}$ e desvio padrão $\sigma_{old}$ . Se um elemento da matriz $x_i$ for substituído por outro elemento $x_j$ , a nova média será

$\mu_{new}=\mu_{old}+\frac{x_j-x_i}{n}$

A vantagem dessa abordagem é que ela requer computação constante, independentemente do valor de $n$ . Existe alguma abordagem para calcular $\sigma_{new}$ usando $\sigma_{old}$ como o cálculo de $\mu_{new}$ usando $\mu_{old}$ ?

standard-deviation online

— do utilizador
fonte

Isso é lição de casa? Uma tarefa muito semelhante foi perguntado em nosso curso de estatística matemática ...

— krlmlr

@ user946850: Não, não é tarefa de casa. Estou conduzindo minha tese sobre Algoritmo Evolucionário . Eu quero usar o desvio padrão como uma medida da diversidade populacional. Apenas procurando uma solução mais eficiente.

— usuário

O SD é a raiz quadrada da variação, que é apenas o valor médio quadrático (ajustado por um múltiplo da média quadrática, que você já sabe como atualizar). Portanto, os mesmos métodos usados para calcular uma média de corrida podem ser aplicados sem nenhuma alteração fundamental para calcular uma variação de corrida. De fato, estatísticas muito mais sofisticadas podem ser calculadas on-line usando as mesmas idéias: consulte os threads em stats.stackexchange.com/questions/6920 e stats.stackexchange.com/questions/23481 , por exemplo.

— whuber

@ whuber: isso é mencionado no artigo da Wikipedia para Variance , mas também com uma nota sobre o cancelamento catastrófico (ou perda de significância) que pode ocorrer. Isso é superestimado ou é um problema real para a variação em execução?

— krlmlr

Essa é uma ótima pergunta. Se você acumular as variações ingenuamente, sem centralizá-las antecipadamente, poderá realmente ter problemas. O problema ocorre quando os números são enormes, mas sua variação é pequena. Por exemplo, considere uma série de medições precisas da velocidade da luz em m / s, como em 299792458.145, 299792457.883, 299792457.998, ...: sua variação, que é em torno de 0,01, é tão pequena em comparação com seus quadrados, em torno de

, que o cálculo descuidado (mesmo em dupla precisão) resultaria em variação zero: todos os dígitos significativos desapareceriam.

10^{17}

$10^{17}$

— whuber

Respostas:

Uma seção no artigo da Wikipedia sobre "Algoritmos para calcular a variação" mostra como calcular a variação se elementos forem adicionados às suas observações. (Lembre-se de que o desvio padrão é a raiz quadrada da variação.) Suponha que você acrescente à sua matriz e, em seguida, $x_{n+1}$

σ_{n e w}^{2} = σ_{o l d}^{2} + (x_{n + 1} - μ_{n e w}) (x_{n + 1} - μ_{o l d}) .

$\sigma_{new}^2 = \sigma_{old}^2 + (x_{n+1} - \mu_{new})(x_{n+1} - \mu_{old}).$

EDIT : A fórmula acima parece estar errada, veja o comentário.

Agora, substituir um elemento significa adicionar uma observação e remover outra; ambos podem ser calculados com a fórmula acima. No entanto, lembre-se de que podem ocorrer problemas de estabilidade numérica; o artigo citado também propõe variantes numericamente estáveis.

Para obter a fórmula por si mesmo, compute usando a definição de variância da amostra e substituto pela fórmula que você deu quando apropriado. Isso fornece no final e, portanto, uma fórmula para $(n-1)(\sigma_{new}^2 - \sigma_{old}^2)$ $\mu_{new}$ $\sigma_{new}^2 - \sigma_{old}^2$ $\sigma_{new}$ dado e $\sigma_{old}$ $\mu_{old}$ . Na minha notação, suponho que você substitua o elemento por : $x_n$ $x_n'$

\begin{array}{rcl} σ^{2} & = & (n - 1)^{- 1} \sum_{k} (x_{k} - μ)^{2} \\ (n - 1) (σ_{n e w}^{2} - σ_{o l d}^{2}) & = & \sum_{k = 1}^{n - 1} ((x_{k} - μ_{n e w})^{2} - (x_{k} - μ_{o l d})^{2}) \\ + ((x_{n}^{'} - μ_{n e w})^{2} - (x_{n} - μ_{o l d})^{2}) \\ = & \sum_{k = 1}^{n - 1} ((x_{k} - μ_{o l d} - n^{- 1} (x_{n}^{'} - x_{n}))^{2} - (x_{k} - μ_{o l d})^{2}) \\ + ((x_{n}^{'} - μ_{o l d} - n^{- 1} (x_{n}^{'} - x_{n}))^{2} - (x_{n} - μ_{o l d})^{2}) \end{array}

$\begin{eqnarray*} \sigma^2 &=& (n-1)^{-1} \sum_k (x_k - \mu)^2 \\ (n-1)(\sigma_{new}^2 - \sigma_{old}^2) &=& \sum_{k=1}^{n-1} ((x_k - \mu_{new})^2 - (x_k - \mu_{old})^2) \\ &&+\ ((x_n' - \mu_{new})^2 - (x_n - \mu_{old})^2) \\ &=& \sum_{k=1}^{n-1} ((x_k - \mu_{old} - n^{-1}(x_n'-x_n))^2 - (x_k - \mu_{old})^2) \\ &&+\ ((x_n' - \mu_{old} - n^{-1}(x_n'-x_n))^2 - (x_n - \mu_{old})^2) \\ \end{eqnarray*}\\$

The $x_k$ in the sum transform into something dependent of $\mu_{old}$ , but you'll have to work the equation a little bit more to derive a neat result. This should give you the general idea.

— krlmlr
fonte

the first formula you gave does not seem correct, well it means that if the

x_{n + 1}

$x_{n+1}$ is smaller/larger then from both new and old mean, the variance always increases, which does not make any sense. It may increase or decrease depending on the distribution.

— Emmet B

@EmmetB: Yes, you're right -- this should probably be

σ_{n e w}^{2} = \frac{n - 1}{n} σ_{o l d}^{2} + \frac{1}{n} (x_{n + 1} - μ_{n e w}) (x_{n + 1} - μ_{o l d}) .

$\sigma_{new}^2 = \frac{n-1}{n} \sigma_{old}^2 + \frac{1}{n} (x_{n+1} - \mu_{new})(x_{n+1} - \mu_{old}).$ Unfortunately, this renders void my whole discussion from there, but I'm leaving it for historic purposes. Feel free to edit, though.

— krlmlr

Based on what i think i'm reading on the linked Wikipedia article you can maintain a "running" standard deviation:

real sum = 0;
int count = 0;
real S = 0;
real variance = 0;

real GetRunningStandardDeviation(ref sum, ref count, ref S, x)
{
   real oldMean;

   if (count >= 1)
   {
       real oldMean = sum / count;
       sum = sum + x;
       count = count + 1;
       real newMean = sum / count;

       S = S + (x-oldMean)*(x-newMean)
   }
   else
   {
       sum = x;
       count = 1;
       S = 0;         
   }

   //estimated Variance = (S / (k-1) )
   //estimated Standard Deviation = sqrt(variance)
   if (count > 1)
      return sqrt(S / (count-1) );
   else
      return 0;
}

Although in the article they don't maintain a separate running sum and count, but instead have the single mean. Since in thing i'm doing today i keep a count (for statistical purposes), it is more useful to calculate the means each time.

— Ian Boyd
fonte

Given original $\bar x$ , $s$ , and $n$ , as well as the change of a given element $x_n$ to $x_n'$ , I believe your new standard deviation $s'$ will be the square root of

s^{2} + \frac{1}{n - 1} (2 n Δ \bar{x} (x_{n} - \bar{x}) + n (n - 1) (Δ \bar{x})^{2}),

$s^2 + \frac{1}{n-1}\left(2n\Delta \bar x(x_n-\bar x) +n(n-1)(\Delta \bar x)^2\right),$ where

Δ \bar{x} = {\bar{x}}^{'} - \bar{x}

$\Delta \bar x = \bar x' - \bar x$ , with

{\bar{x}}^{'}

$\bar x'$ denoting the new mean.

Maybe there is a snazzier way of writing it?

I checked this against a small test case and it seemed to work.

— Whistling in the Dark
fonte

@john / whistling in the Dark: I liked your answer, it seems work properly in my small dataset. Is there any mathematical foundation/reference on it? Could you kindly help?

— Alok Chowdhury

The question was all @Whistling in the Dark, I just cleaned it up for the site. You should pose a new question referencing the question and answer here. And also you should upvote this answer if you feel that way.

— John