Intuição por trás do desvio padrão


26

Estou tentando obter uma melhor compreensão intuitiva do desvio padrão.

Pelo que entendi, é representativo da média das diferenças de um conjunto de observações em um conjunto de dados da média desse conjunto de dados. No entanto, NÃO é realmente igual às médias das diferenças, pois dá mais peso às observações mais distantes da média.

Digamos que eu tenha a seguinte população de valores -{1 1,3,5,7,9}

A média é .5

Se eu medir um spread com base no valor absoluto, recebo

i=15|xiμ|5=2.4

Se eu medir um spread com base no desvio padrão, recebo

i=15(xiμ)25=2.83

O resultado usando o desvio padrão é maior, como esperado, devido ao peso extra que atribui a valores mais distantes da média.

Mas se me soubessem que estava lidando com uma população com média de e desvio padrão de como inferiria que a população era composta de valores algo como ? Parece que a figura de é muito arbitrária ... Não vejo como você deve interpretá-la. Será que significam os valores são disseminação muito ampla ou são todos bem agrupado em torno da média ...52.83{1,3,5,7,9}2.832.83

Quando você recebe uma declaração de que está lidando com uma população com média de e desvio padrão de o que isso diz sobre a população?52.83


2
Esta questão está relacionada (embora não seja idêntica) a stats.stackexchange.com/q/81986/3277 e a outra vinculada a ela.
ttnphns

11
Ele indica uma distância 'típica' da média (a distância RMS). O que torna esse 'grande' ou 'pequeno' depende dos seus critérios. Se você está tentando medir as tolerâncias de engenharia, pode ser enorme. Em outros contextos, o mesmo desvio padrão pode ser considerado bastante pequeno.
Glen_b -Reinstala Monica

Respostas:


13

Minha intuição é que o desvio padrão é: uma medida de propagação dos dados.

Você tem um bom argumento de que se é amplo ou restrito depende de qual é nossa suposição subjacente para a distribuição dos dados.

Advertência: Uma medida de dispersão é mais útil quando a distribuição de seus dados é simétrica em torno da média e apresenta uma variação relativamente próxima à da distribuição Normal. (Isso significa que é aproximadamente normal.)

No caso em que os dados são aproximadamente normais, o desvio padrão possui uma interpretação canônica:

  • Região: média da amostra +/- 1 desvio padrão, contém aproximadamente 68% dos dados
  • Região: média da amostra +/- 2 desvio padrão, contém aproximadamente 95% dos dados
  • Região: média da amostra +/- 3 desvio padrão, contém aproximadamente 99% dos dados

(veja o primeiro gráfico no Wiki )

Isso significa que, se soubermos que a média da população é 5 e o desvio padrão é 2,83 e assumirmos que a distribuição é aproximadamente Normal, eu diria a você que estou razoavelmente certo de que, se fizermos (muitas) muitas observações, apenas 5% serão ser menor que 0,4 = 5 - 2 * 2,3 ou maior que 9,6 = 5 + 2 * 2,3.

Observe qual é o impacto do desvio padrão em nosso intervalo de confiança? (quanto mais propagação, mais incerteza)

Além disso, no caso geral em que os dados não são aproximadamente normais, mas simétricos, você sabe que existem alguns para os quais:α

  • Região: média da amostra +/- desvio padrão, contém aproximadamente 95% dos dadosα

Você pode aprender o de uma subamostra ou assumir α = 2, o que geralmente fornece uma boa regra geral para o cálculo mental de quais observações futuras serão esperadas ou quais das novas observações podem ser consideradas outliers. (tenha em mente a ressalva!)αα=2

Não vejo como você deve interpretá-lo. 2.83 significa que os valores estão muito amplos ou estão todos agrupados em torno da média ...

Eu acho que todas as perguntas que sejam "amplas ou restritas" também devem conter: "em relação a quê?". Uma sugestão pode ser usar uma distribuição conhecida como referência. Dependendo do contexto, pode ser útil pensar: "É muito mais amplo ou mais apertado que um Normal / Poisson?".

EDIT: Com base em uma dica útil nos comentários, mais um aspecto sobre o desvio padrão como medida de distância.

Ainda outra intuição da utilidade do desvio padrão é que é uma medida de distância entre os dados da amostra x 1 , , x N e sua média ˉ x :sNx1,,xNx¯

sN=1Ni=1N(xix¯)2

Como comparação, o erro quadrado médio (MSE), uma das medidas de erro mais populares nas estatísticas, é definido como:

MSE=1ni=1n(Yi^Yi)2

As questões podem ser levantadas por que a distância acima funciona? Por que distâncias quadradas, e não distâncias absolutas, por exemplo? E por que estamos pegando a raiz quadrada?

Ter funções quadráticas de distância ou erro tem a vantagem de podermos diferenciá-las e minimizá-las facilmente. No que diz respeito à raiz quadrada, ela contribui para a interpretabilidade, pois converte o erro de volta à escala de nossos dados observados.


Por que você diz que uma medida de propagação é mais 'útil' quando os dados são normais? Parece-me que qualquer conjunto de dados tem uma propagação e o desvio padrão é um resumo da propagação, mesmo que não capture a forma da propagação.
Michael Lew

Claro, você está certo. Mas eu não estava afirmando que o desvio padrão depende da forma da distribuição de alguma maneira. Apenas salientando que, se você tem algum conhecimento sobre a forma (ou está pronto para fazer essa suposição), geralmente é uma informação muito mais útil. De maneira semelhante, a média da amostra é um bom descritor de seus dados, SE você puder fazer certas suposições gerais sobre a distribuição.
significa significado

Minha razão favorita para usar o quadrado em vez do valor absoluto é que, dessa forma, é um logaritmo de probabilidade de algum gaussiano. Portanto, se você acredita que os erros são de natureza gaussiana e que os bits são uma boa maneira de medir informações, faz sentido usar o erro ao quadrado.
Qbolec

5

Pode ajudar a perceber que a média é análoga ao centro de massa . A variação é o momento de inércia . O desvio padrão é o raio de rotação .

Para uma perspectiva histórica, dê uma olhada em:

George Airy (1875) Sobre a teoria algébrica e numérica dos erros de observação e a combinação de observações

Karl Pearson (1894) Contribuições para a teoria matemática da evolução.

Este gráfico de Airy 1875 mostra as várias medidas de desvio que são facilmente interconvertidas (página 17). O desvio padrão é chamado "erro do quadrado médio". Também são discutidas as páginas 20-21 e ele justifica seu uso na página 48, mostrando que é mais fácil calcular manualmente, porque não há necessidade de cálculo separado de erros negativos e positivos. O termo desvio padrão foi introduzido por Pearson no artigo citado acima na página 75.

insira a descrição da imagem aqui

Como um aparte: Observe que a utilidade do desvio padrão depende da aplicabilidade da "lei dos erros", também conhecida como "curva normal", que surge de "muitas causas independentes de erro" (Airy 1875 pg 7) Não há razão para esperar que os desvios da média de um grupo de cada indivíduo sigam essa lei. Em muitos casos, para sistemas biológicos, uma distribuição logarítmica normal é melhor do que o normal. Vejo:

Limpert et al (2001) Distribuições log-normais nas ciências: chaves e pistas

É ainda questionável se é apropriado tratar a variação individual como ruído, uma vez que o processo de geração de dados atua no nível do indivíduo e não do grupo.


3

De fato, o desvio padrão dá mais peso aos que estão mais afastados da média, porque é a raiz quadrada da média das distâncias ao quadrado. As razões para usar isso (em vez do desvio absoluto médio que você propõe, ou o desvio absoluto médio, que é usado em estatísticas robustas) devem-se em parte ao fato de o cálculo ter um tempo mais fácil com polinômios do que com valores absolutos. No entanto, frequentemente, queremos enfatizar os valores extremos.

Quanto à sua pergunta sobre o significado intuitivo, ele se desenvolve com o tempo. Você está certo de que mais de um conjunto de números pode ter a mesma média e sd; isso ocorre porque o mean e o sd são apenas duas informações e o conjunto de dados pode ser de 5 partes (como 1,3,5,7,9) ou muito mais.

Se uma média de 5 e sd de 2,83 é "ampla" ou "estreita" depende do campo em que você está trabalhando.

Quando você tem apenas 5 números, é fácil olhar para a lista completa; Quando você tem muitos números, maneiras mais intuitivas de pensar sobre a dispersão incluem coisas como o resumo de cinco números ou, melhor ainda, gráficos como um gráfico de densidade.


2

O desvio padrão mede a distância da sua população a partir da média como variáveis ​​aleatórias.

X:[0 0,1 1]R

X(t)={1 10 0t<1 1531 15t<25525t<35735t<45945t1 1

A razão pela qual passamos para as funções e medimos a teoria é porque precisamos ter uma maneira sistemática de discutir como dois espaços de probabilidade são iguais para eventos com chance zero de ocorrer. Agora que mudamos para funções, precisamos de uma sensação de distância.

||Y||p=(01|Y(t)|pdt)1/p
Y:[0,1]R1p<dp(Y,Z)=||XZ||p

p=1

d1(X,5)=||X5_||1=2.4.
p=2
d2(X,5)=||X5_||2=2.83.

5_t5

d2


[0 0,1 1]X:{1,3,5,7,9}RX(i)=i{1,3,5,7,9}||X5||15

Sim, a variável aleatória que você listou é padrão para aqueles que se sentem confortáveis ​​com a teoria da medida. Eu esperava reduzi-lo à compreensão de funções e integração para pessoas com apenas experiência em cálculo. Vou reescrever a média como uma função.
precisa

Além disso, por ser uma pergunta repetida, você está sugerindo incluir comentários sobre o porquê d2é a melhor medida de distância entre funções?
SomeEE

A pergunta pede intuição para entender o desvio padrão. Você explicou como é oeu2norma em algum espaço funcional. Embora isso forneça outra formalização matemática (e seria uma intuição adequada para um matemático que, de outra forma, ignora o desvio padrão), parece ter ficado aquém do que o pôster original estava solicitando. O que seria mais bem-vindo é um parágrafo de acompanhamento explicando o "significado da função de distânciad2"e elaborando, ainda que um pouco, os sentidos nos quais é uma" melhor "medida de distância.
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.