Por que usamos a raiz quadrada da variação para criar um desvio padrão?

26

Desculpe, se isso foi respondido em outro lugar, não consegui encontrá-lo.

Gostaria de saber por que usamos a raiz quadrada , em particular, da variação para criar o desvio padrão? O que é pegar a raiz quadrada que produz um valor útil?

variance standard-deviation

— Dave
fonte

Intimamente relacionado: stats.stackexchange.com/questions/35123/…

— Sycorax diz Reinstate Monica em

2

Pense no desvio padrão como uma norma de vetor euclidiano e depois na variação como quadrado. Essa definição de variância e desvio padrão apresenta propriedades analíticas úteis.

— Theideasmith # 23/17

44

Em certo sentido, essa é uma pergunta trivial, mas, em outro, é realmente bastante profunda!

Como já foi mencionado, tomando a raiz quadrada implica $\operatorname{Stdev}(X)$ tem as mesmas unidades que $X$ .
Tomar a raiz quadrada fornece uma homogeneidade absoluta, também conhecida como escalabilidade absoluta . Para qualquer $\alpha$ escalar e variável aleatória $X$ , temos:
$Stdev [α X] = | α | Stdev [X]$ $\operatorname{Stdev}[\alpha X] = |\alpha| \operatorname{Stdev}[X]$ A homogeneidade absoluta é uma propriedade necessária de uma norma . O desvio padrão pode ser interpretado como uma norma (no espaço vetorial de variáveis aleatórias médias zero) de maneira semelhante a $\sqrt{x^2 + y^2+z^2}$ é a norma euclidiana padrão em um espaço tridimensional. O desvio padrão é uma medida da distância entre uma variável aleatória e sua média.

Desvio padrão e a norma $L_2$

Caso de dimensão finita:

Numa $n$ espaço vectorial dimensional, a norma euclidiana padrão conhecido como o $L_2$ norma está definido como:

‖ x ‖_{2} = \sqrt{\sum_{i} x_{i}^{2}}

$\|\mathbf{x}\|_2 = \sqrt{\sum_i x_i^2}$

Mais amplamente, o -norm leva o th raiz para obter absoluta homogeneidade: . $p$ $\|\mathbf{x}\|_p = \left(\sum_i |x_i|^p \right)^{\frac{1}{p}}$ $p$ $\|\alpha \mathbf{x}\|_p = \left( \sum_i |\alpha x_i|^p \right)^\frac{1}{p} = | \alpha | \left( \sum_i |x_i|^p \right)^\frac{1}{p} = |\alpha | \|\mathbf{x}\|_p$

Se você tiver pesos , a soma ponderada também é uma norma válida. Além disso, é o desvio padrão se representar probabilidades e $q_i$ $\sqrt{\sum_i x_i^2 q_i}$ $q_i$ $\operatorname{E}[\mathbf{x}] \equiv \sum_i x_i q_i = 0$

Caso de dimensão infinita:

Em um espaço Hilbert de dimensão infinita, da mesma forma, podemos definir a norma : $L_2$

__X {__}_{2} = \sqrt{\int_{ω} X (ω)^{2} d P (ω)}

$\|X\|_2 = \sqrt{\int_\omega X(\omega)^2 dP(\omega) }$

Se é uma variável aleatória média zero e é a medida de probabilidade, qual é o desvio padrão? É o mesmo: . $X$ $P$ $\sqrt{\int_\omega X(\omega)^2 dP(\omega) }$

Resumo:

Tomando a raiz quadrada faz significa que o desvio padrão satisfaz a homogeneidade absoluta , uma propriedade necessária de uma norma .

Em um espaço de variáveis aleatórias, é um produto interno e o norma induzida por esse produto interno . Portanto, o desvio padrão é a norma de uma variável aleatória : É uma medida da distância da média a . $\langle X, Y \rangle = \operatorname{E}[XY]$ $\|X\|_2 = \sqrt{\operatorname{E}[X^2]}$

Stdev [X] =__X - E [X] {__}_{2}

$\operatorname{Stdev}[X] = \|X - \operatorname{E}[X]\|_2$

E [X]

$\operatorname{E}[X]$

X

$X$

(Ponto técnico: enquanto é uma norma, o desvio padrão não é uma norma sobre variáveis aleatórias em geral, porque um requisito para um espaço vetorial normalizado é se e somente se . Um desvio padrão de 0 não ' t implica que a variável aleatória é o elemento zero.) $\sqrt{\operatorname{E}[X^2]}$ $\sqrt{\operatorname{E}[(X - \operatorname{E}[X])^2]}$ $\|x\| = \mathbf{0}$ $x = \mathbf{0}$

— Matthew Gunn
fonte

11

Essa resposta realmente está no cerne da questão, tornando-a mais informativa do que a atualmente aceita.

— 00prometheus 28/03

26

A variação de é definida como , portanto, é uma expectativa de uma diferença ao quadrado entre X e seu valor esperado. $X$ $V(X) = E(X-E(X))^2$

Se é o tempo em segundos, está em segundos, mas está em e está novamente em segundos. $X$ $X-E(X)$ $V(X)$ $\mbox{seconds}^2$ $\sqrt{V(X)}$

— HStamper
fonte

Ah, entendo, está apenas desfazendo a mudança de escala resultante da quadratura das diferenças, no cálculo da variação?

— 23417 Dave

11

Certo - mas mudança nas dimensões , não na escala.

— Jean-François Corbett

Mas não é como se houvesse um único termo: existem muitos e cada um, quando no poder 2, traz mais ou menos do que outros termos. Mas quando pegamos a raiz quadrada, meio que negligenciamos essa diferença, não é? Não teríamos o numerador inicial, soma de todas as diferenças dessa maneira. Não seria melhor criar uma raiz quadrada de cada termo individual?

— parsecer 24/03

Parece que você está pensando na estimativa , com base em uma amostra. Nesse caso, se você o fizesse, as diferenças seriam zeradas: .

\hat{V}

$\hat{V}$

\sum_{i = 1}^{n} (x_{i} - \bar{x}) = \sum_{i = 1}^{n} x_{i} - \sum_{i = 1}^{n} x_{i} = 0

$\sum_{i=1}^n (x_i - \bar{x}) = \sum_{i=1}^n x_i - \sum_{i=1}^n x_i = 0$

— HStamper

@ EricMittman Exceto que , não , nesse caso, você obteria o erro absoluto médio .

\sqrt{a^{2}} = | a |

$\sqrt{a^2} = \lvert a \rvert$

a

$a$

— Dougal 25/03

6

A resposta simples é que as unidades estão na mesma escala que a média. Exemplo: Estimo a média para o aluno do ensino médio em 160 cm com um desvio padrão (DP) de 20 cm. É intuitivamente mais fácil perceber a variação com o SD do que a variação de 400 cm ^ 2.

— Otimista
fonte

0

Em termos mais simples, o desvio padrão é projetado para nos fornecer um número positivo que diz algo sobre a disseminação de nossos dados sobre sua média.

Se somarmos as distâncias de todos os pontos da média, os pontos nas direções positiva e negativa se combinariam de uma maneira que tenderia a gravitar de volta para a média e perderíamos informações sobre a propagação. É por isso que medimos a variação primeiro, para que todas as distâncias sejam preservadas como quantidades positivas via quadratura e elas não se cancelem. No final, queremos um valor positivo que represente as unidades com as quais começamos - isso já foi comentado acima -, então tomamos a raiz quadrada positiva.

— DC_Beardly
fonte

-3

É uma estupidez histórica que continuamos devido à preguiça intelectual. Eles escolheram quadrado as diferenças da média para se livrar do sinal de menos. Então eles pegaram a raiz quadrada para trazê-la para uma escala semelhante à média.

Alguém deve gerar novas estatísticas, variação de computação e DP usando módulo ou valores absolutos de desvio da média. Isso eliminaria toda essa quadratura e, em seguida, acabaria com o negócio da raiz quadrada.

— Asir Ajmal
fonte

11

Já temos isso, na forma do desvio absoluto médio (ou mediano), das normas L1 e similares. No entanto, a principal vantagem da abordagem tradicional é que, diferentemente dos valores absolutos, é diferenciável, o que permite minimizar e maximizar analiticamente as coisas.

— Matt Krause

11

Se você não fornecer uma justificativa substantiva para sua posição, forneça um argumento matemático claramente definido. A soma dos valores absolutos é muito diferente da raiz quadrada da soma dos quadrados. Este último enfatiza a contribuição de valores extremos, que é uma propriedade útil. Além disso, o SSQ é central para os métodos analíticos de mínimos quadrados. Reserve um tempo para expandir os problemas do SD e como as alternativas se comparam para que os leitores possam entender seu ponto de vista. .

— ReneBt 4/06

(-1) É muito fácil ler frases como "estupidez histórica" e "preguiça intelectual" como sendo auto-referenciais.

— whuber

Por que usamos a raiz quadrada da variação para criar um desvio padrão?

Desvio padrão e a norma eu2L2L_2

Caso de dimensão finita:

Caso de dimensão infinita:

Resumo:

Desvio padrão e a norma $L_2$