Esta é uma pergunta antiga, mas a resposta aceita não está correta ou completa. O usuário deseja calcular o desvio padrão nos dados de 12 meses em que a média e o desvio padrão já são calculados a cada mês. Supondo que o número de amostras em cada mês seja o mesmo, é possível calcular a média e a variação da amostra ao longo do ano a partir dos dados de cada mês. Para simplificar, assuma que temos dois conjuntos de dados:
X={x1,....xN}
Y={y1,....,yN}
com valores conhecidos da média e variância da amostra, , , , .μxμyσ2xσ2y
Agora queremos calcular as mesmas estimativas para
Z={x1,....,xN,y1,...,yN} .
Considere que , são calculados como:μxσ2x
μx=∑Ni=1xiN
σ2x=∑Ni=1x2iN−μ2x
Para estimar a média e a variação sobre o conjunto total, precisamos calcular:
μz=∑Ni=1xi+∑Ni=1yi2N=(μx+μy)/2
que é fornecido na resposta aceita. Para variação, no entanto, a história é diferente:
σ2z=∑Ni=1x2i+∑Ni=1y2i2N−μ2z
σ2z=12(∑Ni=1x2iN−μ2x+∑Ni=1y2iN−μ2y)+12(μ2x+μ2y)−(μx+μy2)2
σ2z=12(σ2x+σ2y)+(μx−μy2)2
Portanto, se você tiver a variação de cada subconjunto e desejar a variação de todo o conjunto, poderá calcular a média de variações de cada subconjunto, se todas tiverem a mesma média. Caso contrário, você precisará adicionar a variação da média de cada subconjunto.
Digamos que durante a primeira metade do ano produzimos exatamente 1000 MWh por dia e, na segunda metade, produzimos 2000 MWh por dia. Então a média e a variação da produção de energia na primeira e na segunda metade são 1000 e 2000 para a média e a variação é 0 para ambas as metades. Agora, há duas coisas diferentes nas quais podemos estar interessados:
1- Queremos calcular a variação da produção de energia durante todo o ano : então, calculando a média das duas variações, chegamos a zero, o que não é correto, pois a energia por dia durante todo o ano não é constante. Nesse caso, precisamos adicionar a variação de todas as médias de cada subconjunto. Matematicamente, neste caso, a variável aleatória de interesse é a produção de energia por dia. Temos estatísticas de amostra sobre subconjuntos e queremos calcular as estatísticas de amostra por mais tempo.
2- Queremos calcular a variação da produção de energia por ano: Em outras palavras, estamos interessados em quanta produção de energia muda de um ano para outro ano. Nesse caso, a média da variação leva à resposta correta, que é 0, pois em cada ano produzimos exatamente 1500 MHW em média. Matematicamente, neste caso, a variável aleatória de interesse é a média da produção de energia por dia, em que a média é feita durante todo o ano.