Por que quadrado a diferença em vez de assumir o valor absoluto no desvio padrão?
Quadramos a diferença dos xs da média, porque a distância euclidiana, proporcional à raiz quadrada dos graus de liberdade (número de xs, em uma medida populacional), é a melhor medida de dispersão.
Cálculo de Distância
Qual é a distância do ponto 0 ao ponto 5?
- 5 - 0 = 5
- | 0-5 | =5
- 52--√= 5
Ok, isso é trivial porque é uma dimensão única.
Que tal a distância de um ponto no ponto 0, 0 ao ponto 3, 4?
Se pudermos apenas ir em uma dimensão por vez (como nos quarteirões da cidade), basta adicionar os números. (Isso às vezes é conhecido como a distância de Manhattan).
Mas e quanto a ir em duas dimensões ao mesmo tempo? Então (pelo teorema de Pitágoras que todos aprendemos no ensino médio), arredondamos a distância em cada dimensão, somamos os quadrados e pegamos a raiz quadrada para encontrar a distância da origem ao ponto.
32+ 42------√= 25--√= 5
Que tal a distância de um ponto em 0, 0, 0 até o ponto 1, 2, 2?
Isso é apenas
12+ 22+ 22----------√= 9-√= 3
porque a distância para os dois primeiros x's forma a perna para calcular a distância total com o x final.
x21+ x22------√2+ x23-------------√= x21+ x22+ x23----------√
Podemos continuar estendendo a regra de quadratura da distância de cada dimensão, isso generaliza para o que chamamos de distância euclidiana, para medições ortogonais no espaço hiperdimensional, assim:
di s t a n c e = ∑i = 1nx2Eu-----√
e assim a soma dos quadrados ortogonais é a distância ao quadrado:
di s t a n c e2= ∑i = 1nx2Eu
O que torna uma medição ortogonal (ou perpendicularmente) a outra? A condição é que não há relação entre as duas medições. Procuramos que essas medidas sejam independentes e distribuídas individualmente ( iid ).
Variação
Agora, lembre-se da fórmula da variação populacional (da qual obteremos o desvio padrão):
σ2= ∑i = 1n( xEu- μ )2n
Se já centralizamos os dados em 0 subtraindo a média, temos:
σ2= ∑i = 1n( xEu)2n
di s t a n c e2 por medição. "Variação média quadrática" também seria um termo apropriado.
Desvio padrão
Então temos o desvio padrão, que é apenas a raiz quadrada da variação:
σ= ∑i = 1n( xEu- μ )2n-----------⎷
Qual é, equivalentemente, a distância , dividida pela raiz quadrada dos graus de liberdade:
σ= ∑i = 1n( xEu)2-------√n--√
Desvio médio absoluto
Desvio absoluto médio (MAD), é uma medida de dispersão que usa a distância de Manhattan ou a soma dos valores absolutos das diferenças em relação à média.
MA D = ∑i = 1n| xEu- μ |n
Novamente, supondo que os dados estejam centralizados (a média subtraída), temos a distância de Manhattan dividida pelo número de medições:
MA D = ∑i = 1n| xEu|n
Discussão
- O desvio médio absoluto é de cerca de 0,8 vezes ( na verdade2 / π---√) o tamanho do desvio padrão para um conjunto de dados normalmente distribuído.
- Independentemente da distribuição, o desvio médio absoluto é menor ou igual ao desvio padrão. O MAD subestima a dispersão de um conjunto de dados com valores extremos, em relação ao desvio padrão.
- O desvio médio absoluto é mais robusto para os valores discrepantes (ou seja, os valores discrepantes não têm um efeito tão grande na estatística quanto no desvio padrão.
- Geometricamente falando, se as medições não forem ortogonais entre si (iid) - por exemplo, se forem correlacionadas positivamente, o desvio absoluto médio seria uma estatística descritiva melhor do que o desvio padrão, que depende da distância euclidiana (embora isso geralmente seja considerado bom )
Esta tabela reflete as informações acima de uma maneira mais concisa:
s i zes i ze , ~ NO u t G i e r sn o t i . i . d .MA D≤ σ.8 × σr o b u s tr o b u s tσ≥ MA D1.25 × MA Deu n fl u e n c e do k
Comentários:
Você tem uma referência para "o desvio absoluto médio é cerca de 0,8 vezes o tamanho do desvio padrão para um conjunto de dados distribuído normalmente"? As simulações que estou executando mostram que isso está incorreto.
Aqui estão 10 simulações de um milhão de amostras da distribuição normal padrão:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
Conclusão
Preferimos as diferenças quadráticas ao calcular uma medida de dispersão, porque podemos explorar a distância euclidiana, o que nos dá uma melhor estatística descritiva da dispersão. Quando existem valores relativamente extremos, a distância euclidiana é responsável pela estatística, enquanto a distância de Manhattan dá a cada medida o mesmo peso.