Estou lutando para entender a diferença entre o erro padrão e o desvio padrão. Como eles são diferentes e por que você precisa medir o erro padrão?
Estou lutando para entender a diferença entre o erro padrão e o desvio padrão. Como eles são diferentes e por que você precisa medir o erro padrão?
Respostas:
Aqui está uma resposta mais prática (e não matemática):
Observe que os erros padrão podem ser calculados para quase qualquer parâmetro que você calcula a partir dos dados, não apenas a média. A frase "o erro padrão" é um pouco ambígua. Os pontos acima se referem apenas ao erro padrão da média.
(Do GraphPad Statistics Guide que escrevi.)
(observe que estou focando no erro padrão da média, que acredito ser o questionador, mas você pode gerar um erro padrão para qualquer estatística de amostra)
O erro padrão está relacionado ao desvio padrão, mas eles não são a mesma coisa e o aumento do tamanho da amostra não os aproxima. Pelo contrário, torna-os mais afastados. O desvio padrão da amostra fica mais próximo do desvio padrão da população à medida que o tamanho da amostra aumenta, mas não o erro padrão.
Às vezes, a terminologia em torno disso é um pouco grossa para passar.
Quando você reúne uma amostra e calcula o desvio padrão dessa amostra, à medida que a amostra cresce em tamanho, a estimativa do desvio padrão se torna cada vez mais precisa. Parece da sua pergunta que era nisso que você estava pensando. Mas considere também que a média da amostra tende a estar mais próxima da média da população em média. Isso é fundamental para entender o erro padrão.
O erro padrão é sobre o que aconteceria se você obtivesse várias amostras de um determinado tamanho. Se você tirar uma amostra de 10, poderá obter uma estimativa da média. Depois, você tira outra amostra de 10 e nova estimativa média, e assim por diante. O desvio padrão das médias dessas amostras é o erro padrão. Dado que você fez sua pergunta, provavelmente poderá ver agora que, se o N for alto, o erro padrão será menor, porque será menos provável que as médias das amostras se desviem muito do valor real.
Para alguns, isso parece meio milagroso, pois você calculou isso a partir de uma amostra. Portanto, o que você pode fazer é iniciar um erro padrão por meio de simulação para demonstrar o relacionamento. Em R, seria assim:
# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100
# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)
Você verá que esses dois últimos comandos geram o mesmo número (aproximadamente). Você pode variar os valores de n, m e se eles sempre saem bem próximos um do outro.