Desvio padrão do desvio padrão

O que é um estimador do desvio padrão do desvio padrão se a normalidade dos dados puder ser assumida?

estimation standard-deviation normality-assumption

— Ferdi
fonte

Suponho que você esteja procurando a distribuição da variação da amostra . Isso leva a uma seção na página da Wikipedia sobre variação em 16:55, 21 de agosto de 2016. Como este é um link para a Wikipedia, o artigo pode ser alterado no futuro. Portanto, a seção pode não refletir o conteúdo a que esta resposta se refere após essas alterações. Portanto, um link para uma versão histórica da página da Wikipedia é fornecido aqui. O artigo atual sobre variância é encontrado [aqui] ( en.wikipedia.org/wik

Respostas:

Seja . Conforme mostrado neste tópico , o desvio padrão do desvio padrão da amostra, $X_1, ..., X_n \sim N(\mu, \sigma^2)$

s = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \bar{X})},

$s = \sqrt{ \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X}) },$

S D (s) = \sqrt{E ([E (s) - s]^{2})} = σ \sqrt{1 - \frac{2}{n - 1} \cdot {(\frac{Γ (n / 2)}{Γ (\frac{n - 1}{2})})}^{2}}

${\rm SD}(s) = \sqrt{ E \left( [E(s)- s]^2 \right) } = \sigma \sqrt{ 1 - \frac{2}{n-1} \cdot \left( \frac{ \Gamma(n/2) }{ \Gamma( \frac{n-1}{2} ) } \right)^2 }$

onde é a função gama , é o tamanho da amostra e é a média da amostra. Como é um estimador consistente de , isso sugere substituir por na equação acima para obter um estimador consistente de . $\Gamma(\cdot)$ $n$ $\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$ $s$ $\sigma$ $\sigma$ $s$ ${\rm SD}(s)$

Se você procura um estimador imparcial, vemos neste tópico que , que, por linearidade de expectativa, sugere $E(s) = \sigma \cdot \sqrt{ \frac{2}{n-1} } \cdot \frac{ \Gamma(n/2) }{ \Gamma( \frac{n-1}{2} ) }$

s \cdot \sqrt{\frac{n - 1}{2}} \cdot \frac{Γ (\frac{n - 1}{2})}{Γ (n / 2)}

$s \cdot \sqrt{ \frac{n-1}{2} } \cdot \frac{\Gamma( \frac{n-1}{2} )}{ \Gamma(n/2) }$

como um estimador imparcial de . Tudo isso, juntamente com a linearidade da expectativa, fornece um estimador imparcial de : $\sigma$ ${\rm SD}(s)$

s \cdot \frac{Γ (\frac{n - 1}{2})}{Γ (n / 2)} \cdot \sqrt{\frac{n - 1}{2} - {(\frac{Γ (n / 2)}{Γ (\frac{n - 1}{2})})}^{2}}

$s \cdot \frac{\Gamma( \frac{n-1}{2} )}{ \Gamma(n/2) } \cdot \sqrt{\frac{n-1}{2} - \left( \frac{ \Gamma(n/2) }{ \Gamma( \frac{n-1}{2} ) } \right)^2 }$

— Macro
fonte

+1 É bom ver não apenas uma resposta melhor aparecer depois de quase dois anos, mas uma resposta que fornece detalhes mais úteis do que as referências em outras partes deste segmento.

— whuber

Você esqueceu de quadrado as distâncias na primeira fórmula?

— danijar

É difícil calcular a função gama para valores não pequenos de . Aplicando a aproximação de Stirling, recebo , que é computacionalmente viável e também um pouco mais compacto em termos de expressão.

n

$n$

s \cdot \sqrt{e \cdot (1 - \frac{1}{n})^{n - 1} - 1}

$s\cdot\sqrt{\mathrm{e}\cdot(1-\frac{1}{n})^{n-1}-1}$

— Equaeghe

Provavelmente vale a pena apontar que s (calculado em resposta @ da Macro é por vezes referido como o erro padrão do desvio padrão da amostra.

— Harvey Motulsky

Para quem deseja um formulário simples, é uma boa aproximação em um nível de poucos por cento.

s / \sqrt{2 (n - 1)}

$s/\sqrt{2(n-1)}$

— Syrtis Major

Suponha que você observe iid de um normal com zero médio e variação . O desvio padrão (empírico) é a raiz quadrada do estimador de (imparcial ou não, essa não é a questão). Como estimador (obtido com ), possui uma variação que pode ser calculada teoricamente. Talvez o que você chama de desvio padrão do desvio padrão seja na verdade a raiz quadrada da variação do desvio padrão, ou seja, ? Não é um estimador, é uma quantidade teórica (algo como $X_1,\dots,X_n$ $\sigma^2$ $\hat{\sigma}^2$ $\sigma^2$ $X_1,\dots,X_n$ $\hat{\sigma}$ $\sqrt{E[(\sigma-\hat{\sigma})^2]}$ $\sigma/\sqrt{n}$ para ser confirmado) que pode ser calculado explicitamente!

— Robin Girard
fonte

Não é uma função do estimador ainda um estimador? Ainda não sei \ sigma, apenas X_i.

ok, então você possivelmente estimará a raiz quadrada da variação da estimativa da raiz quadrada da variação ... certo :) deve ser algo como ?

\hat{σ} / n

$\hat{\sigma}/n$

— robin Girard

O que Srikant encontrou (e o que parece confirmado no PhysicsForums) deve haver ; portanto, .

\sqrt{2}

$\sqrt{2}$

\hat{σ} \frac{\sqrt{2}}{2 n}

$\hat{\sigma}\frac{\sqrt{2}}{2n}$

Aww, esses comentários travam; . Pelo menos este fornece o resultado de acordo com o bootstrap.

\frac{\hat{σ}}{\sqrt{2 n}}

$\frac{\hat{\sigma}}{\sqrt{2n}}$

-3

O @Macro forneceu uma ótima explicação matemática com a equação para calcular. Aqui está uma explicação mais geral para pessoas menos matemáticas.

Eu acho que a terminologia "SD of SD" é confusa para muitos. É mais fácil pensar no intervalo de confiança de um SD. Qual é a precisão do desvio padrão que você calcula de uma amostra? Por acaso, você pode obter dados agrupados, tornando o SD da amostra muito menor que o SD da população. Ou você pode obter valores aleatoriamente muito mais dispersos que a população em geral, tornando o SD da amostra maior que o SD da população.

A interpretação do IC do SD é simples. Comece com a suposição habitual de que seus dados foram amostrados aleatoriamente e independentemente de uma distribuição gaussiana. Agora repita essa amostragem várias vezes. Você espera que 95% desses intervalos de confiança incluam o verdadeiro DP da população.

Qual a largura do intervalo de confiança de 95% de um SD? Depende do tamanho da amostra (n), é claro.

n: IC95% de DP

2: 0,45 * DP a 31,9 * DP

3: 0,52 * SD para 6,29 * SD

5: 0,60 * SD para 2,87 * SD

10: 0,69 * SD para 1,83 * SD

25: 0,78 * SD a 1,39 * SD

50: 0,84 * SD para 1,25 * SD

100: 0,88 * SD para 1,16 * SD

500: 0,94 * SD para 1,07 * SD

Calculadora gratuita na web

— Harvey Motulsky
fonte

Eu posso fazer Monte Carlo, eu só queria fazer de uma maneira mais 'científica'; ainda assim, você está certo de que a distribuição não é normal, portanto esse sd será inútil para testes.

Pelo que vale, não me sinto à vontade com a afirmação "um intervalo de confiança de 95% ... que provavelmente contenha o verdadeiro SD" (ou, declarado mais explicitamente na página vinculada: "você pode ter 95% de certeza de que o O IC calculado a partir da amostra SD contém a verdadeira população SD "). Eu acho que essas declarações flertam com o reforço de um equívoco popular, veja aqui , por exemplo, uma discussão relacionada ao CV.

— gung - Restabelece Monica

O que é "eu acho que tanto o conceito quanto a terminologia de" SD of SD "são muito escorregadios para lidar com" supostamente significam? O desvio padrão da amostra é uma variável aleatória que possui um desvio padrão.

— Macro

@Macro. Obrigado por seus comentários. Eu reescrevi substancialmente.

— Harvey Motulsky

@gung. Reescrevi para explicar corretamente o intervalo de confiança.

— Harvey Motulsky