Como o erro padrão funciona?

17

Eu estive examinando o funcionamento interno do erro padrão recentemente e me vi incapaz de entender como ele funciona. Meu entendimento do erro padrão é que é o desvio padrão da distribuição das médias amostrais. Minhas perguntas são:

• como sabemos que o erro padrão é o desvio padrão da amostra quando geralmente coletamos apenas uma amostra?

• por que a equação para calcular o erro padrão reflete a equação do desvio padrão para uma única amostra?

standard-error

— luciano
fonte

Quando você diz "amostra única", você quer dizer um conjunto de amostras ou realmente um tamanho de amostra igual a 1?

— Erik

1

Isso é explicado por um problema simples, mas interessante (uma resposta ternária) em linguagem simples e não estatística em stats.stackexchange.com/a/18609 .

— whuber

13

Sim, o erro padrão da média (MEV) é o desvio padrão (DP) das médias. (O erro padrão é outra maneira de dizer DP de uma distribuição amostral. Nesse caso, a distribuição amostral é um meio para amostras de tamanho fixo, digamos N.). Existe uma relação matemática entre o SEM e a população SD: SEM = população DP / raiz quadrada de N. Essa relação matemática é muito útil, pois quase nunca temos uma estimativa direta do MEV, mas temos uma estimativa da população SD (a saber, o SD da nossa amostra). Quanto à sua segunda pergunta, se você coletar várias amostras de tamanho N e calcular a média de cada amostra, poderá estimar o MEV simplesmente calculando o DP das médias. Portanto, a fórmula do SEM realmente reflete a fórmula do SD de uma única amostra.

— Joel W.
fonte

13

Suponha que sejam independentes e distribuídos de forma idêntica. Esta é a situação à qual tenho certeza de que você está se referindo. Seja sua média comum e sua variância comum seja . $X_1, X_2, \ldots, X_n$ $\mu$ $\sigma^2$

Agora a média da amostra é . A linearidade da expectativa mostra que a média de também é . A suposição de independência implica que a variação de é a soma das variações de seus termos. Cada um desses termos tem variação (porque a variação de uma constante vezes uma variável aleatória é a constante ao quadrado vezes a variação da variável aleatória). Nós distribuímos identicamente essas variáveis para somar, portanto, cada termo tem a mesma variação. Como resultado, obtemos para a variação da média da amostra. $X_b=\sum_i X_i/n$ $X_b$ $\mu$ $X_b$ $X_i/n$ $\sigma^2/n^2$ $n$ $n \sigma^2/n^2 = \sigma^2/n$

Normalmente, não sabemos e, portanto, devemos calculá-lo a partir dos dados. Dependendo da configuração, existem várias maneiras de fazer isso. As duas estimativas de propósito geral mais comuns de são a variação da amostra e um pequeno múltiplo, (que é um estimador imparcial de ). Usar qualquer um deles no lugar de no parágrafo anterior e pegar a raiz quadrada gera o erro padrão na forma de ou . $\sigma^2$ $\sigma^2$ $s^2 = \frac{1}{n}\sum_i(X_i-X_b)^2$ $s_u^2 = \frac{n}{n-1}s^2$ $\sigma^2$ $\sigma^2$ $s/\sqrt{n}$ $s_u/\sqrt{n}$

— Michael R. Chernick
fonte

1

Isso é muito bom. Você tem sugestões de livros ou leituras para desenvolver uma linha de pensamento semelhante. Obrigado.

— Q126y

Resposta elegante!

— Jinhua Wang

7

+1 para ambos @JoelW. & @MichaelChernick. Quero adicionar um detalhe à resposta de @ JoelW. Ele observa que "quase nunca temos uma estimativa direta do MEV", o que é essencialmente verdadeiro, mas vale a pena reconhecer explicitamente uma ressalva a essa afirmação. Especificamente, quando um estudo compara vários grupos / tratamentos (por exemplo, placebo versus medicamento padrão versus medicamento novo), uma ANOVA é normalmente usada para verificar se todos são iguais. A hipótese nula é que cada grupo foi desenhado da mesma população e, portanto, todas as três médias são estimativas da média da população. Ou seja, a hipótese nula em uma ANOVA padrão pressupõe que você tenha uma estimativa direta do SEM. Considere a equação para a variância da distribuição amostral de médias: onde é a variação da população eé o número de grupos. Embora nós não costumamos realizar os cálculos, desta forma, quepoderiasimplesmente usar fórmulas padrão para ligar valores estimados, e com o mínimo de reorganização algébrica, formam aestatística assim: Nesse caso, estaríamos realmente usando a fórmula padrão (aplicada apenas sobre o grupo significa), ou seja: com

σ_{\bar{x}}^{2} = \frac{σ_{p o p}^{2}}{n_{j}},

$\sigma^2_{\bar x}=\frac{\sigma^2_{pop}}{n_j},$

σ_{p o p}^{2}

$\sigma^2_{pop}$

n_{j}

$n_j$

F

$F$

F = \frac{n_{j} \times s_{\bar{x}}^{2}}{s_{pooled within group}^{2}}

$F=\frac{n_j\times s^2_{\bar x}}{s^2_{\text{pooled within group}}}$

s_{\bar{x}}^{2} = \frac{\sum_{j = 1}^{n_{j}} ({\bar{x}}_{j} - {\bar{x}}_{.})^{2}}{n_{j} - 1},

$s^2_{\bar x}=\frac{\sum_{j=1}^{n_j}(\bar x_j-\bar x_.)^2}{n_j-1},$

x_{.}

$x_.$ sendo a média do grupo significa.

Na medida em que acreditamos que a hipótese nula não é verdadeira, o argumento de @ JoelW. está correto, mas eu trabalho com esse ponto, porque acho que a clareza que ela oferece é útil para entender essas questões.

— - Reinstate Monica
fonte

2

Eu acho que seu comentário é basicamente o mesmo que este, que foi escrito com menos notações matemáticas: stats.stackexchange.com/questions/32206/…

— Joel W.