Se você definir a variação como - semelhante à variação da população mas com a média da amostra para \ mu , as duas amostras terão a mesma variação.s2n=MSE= 1n∑ni = 1( xEu- x¯)2μ
Portanto, a diferença se deve exclusivamente à correção de Bessel na fórmula usual para a variação da amostra ( , que ajusta o fato de que a média da amostra está mais próxima dos dados do que a média da população, a fim de torná-la imparcial (assumindo o valor correto "em média").s2n - 1= nn - 1⋅ MSE = nn - 1⋅ 1n∑ni = 1( xEu- x¯)2= 1n - 1∑ni = 1( xEu- x¯)2
O efeito desaparece gradualmente com o aumento do tamanho da amostra, pois n - 1n vai para 1 como n → ∞ .
Não há nenhuma razão específica para você usar o estimador imparcial para s2n , a propósito - s ^ 2_n é um estimador perfeitamente válido e, em alguns casos, pode ter vantagens sobre a forma mais comum (a imparcialidade não é necessariamente tão grande assim). lidar).
A variação em si não é diretamente uma medida de spread. Se eu dobrar todos os valores no meu conjunto de dados, afirmo que eles são duas vezes mais "dispersos". Mas a variação aumenta em um fator de 4. Portanto, mais geralmente, diz-se que o desvio padrão, em vez da variação, é uma medida de spread.
Obviamente, o mesmo problema ocorre com o desvio padrão (a versão sn - 1 usual ) e com a variação - quando você duplica os pontos, o desvio padrão muda, pelo mesmo motivo que ocorre com a variação.
Em amostras pequenas, a correção de Bessel torna o desvio padrão um pouco menos intuitivo como medida de propagação por causa desse efeito (que duplicar a amostra altera o valor). Mas muitas medidas de propagação mantêm o mesmo valor ao duplicar a amostra; Vou mencionar alguns -
sn (é claro)
o desvio médio (absoluto) da média
o desvio mediano (absoluto) da mediana
o intervalo interquartil (pelo menos para algumas definições de quartis de amostra)
{3, 5}
si é 1, pela primeira fórmula. Como você ressalta, o questionador tentou estimar a variação de uma população da qual se presume ser uma amostra, mas quem sabe se é ou não.