Eu sou um noob em estatística, então vocês poderiam me ajudar aqui.
Minha pergunta é a seguinte: O que realmente significa variação combinada ?
Quando procuro uma fórmula para variação combinada na Internet, encontro muita literatura usando a seguinte fórmula (por exemplo, aqui: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
Mas o que realmente calcula? Porque quando eu uso essa fórmula para calcular minha variação combinada, isso me dá uma resposta errada.
Por exemplo, considere estas "amostras principais":
A variação dessa amostra pai é e sua média é \ bar {x} _p = 5 .ˉ x p = 5
Agora, suponha que eu divida essa amostra pai em duas subamostras:
- A primeira subamostra é 2,2,2,2,2 com média e variação .
- A segunda subamostra é 8,8,8,8,8 com média e variação .
Agora, claramente, o uso da fórmula acima para calcular a variação combinada / pai dessas duas subamostras produzirá zero, porque e . Então, o que essa fórmula realmente calcula?
Por outro lado, após uma longa derivação, encontrei a fórmula que produz a variação combinada / pai correta:
Na fórmula acima, e d_2 = \ bar {x_2} - \ bar {x} _p .d 2 = ¯ x 2 - ˉ x p
Eu encontrei uma fórmula semelhante à minha, por exemplo, aqui: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html e também na Wikipedia. Embora eu deva admitir que eles não são exatamente iguais aos meus.
Então, novamente, o que realmente significa variação combinada? Não deveria significar a variação da amostra pai das duas subamostras? Ou eu estou completamente errado aqui?
Agradeço antecipadamente.
EDIT 1: Alguém diz que minhas duas subamostras acima são patológicas, pois têm variação zero. Bem, eu poderia dar um exemplo diferente. Considere esta amostra pai:
A variação dessa amostra pai é e sua média é .ˉ x p = 25,5
Agora, suponha que eu divida essa amostra pai em duas subamostras:
- A primeira subamostra é 1,2,3,4,5 com média e variância .S 2 1 =2,5
- A segunda subamostra é 46,47,48,49,50 com média e variância .S 2 2 =2,5
Agora, se você usar a "fórmula da literatura" para calcular a variação combinada, obterá 2,5, o que é completamente errado, porque a variação pai / combinada deve ser 564,7. Em vez disso, se você usar "minha fórmula", obterá a resposta correta.
Por favor, entenda, eu uso exemplos extremos aqui para mostrar às pessoas que a fórmula está realmente errada. Se eu usar "dados normais" que não apresentam muitas variações (casos extremos), os resultados dessas duas fórmulas serão muito semelhantes e as pessoas poderão descartar a diferença devido a um erro de arredondamento, não porque a fórmula em si seja errado.