O que é um desvio padrão, como é calculado e qual é o seu uso nas estatísticas?
O que é um desvio padrão, como é calculado e qual é o seu uso nas estatísticas?
Respostas:
Desvio padrão é um número que representa a "dispersão" ou "dispersão" de um conjunto de dados. Existem outras medidas de spread, como intervalo e variação.
Aqui estão alguns exemplos de conjuntos de dados e seus desvios padrão:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
Os conjuntos de dados acima têm a mesma média.
Desvio significa "distância da média".
"Padrão" aqui significa "padronizado", significando que o desvio padrão e a média estão nas mesmas unidades, diferentemente da variação.
Por exemplo, se a altura média for 2 metros , o desvio padrão poderá ser 0,3 metro , enquanto a variação seria 0,09 metros ao quadrado .
É conveniente saber que pelo menos 75% dos pontos de dados sempre estão dentro de 2 desvios padrão da média (ou em torno de 95% se a distribuição for Normal).
Por exemplo, se a média é 100 e o desvio padrão é 15, pelo menos 75% dos valores estão entre 70 e 130.
Se a distribuição for normal, 95% dos valores estarão entre 70 e 130.
De um modo geral, as pontuações do teste de QI são normalmente distribuídas e têm uma média de 100. Alguém que é "muito brilhante" tem dois desvios padrão acima da média, o que significa uma pontuação de 130 no teste de QI.
Uma citação da Wikipedia .
Ele mostra quanta variação existe da "média" (média ou valor esperado / orçado). Um desvio padrão baixo indica que os pontos de dados tendem a estar muito próximos da média, enquanto que o desvio padrão alto indica que os dados estão espalhados por uma grande variedade de valores.
Ao descrever uma variável, normalmente a resumimos usando duas medidas: uma medida do centro e uma medida do spread. Medidas comuns de centro incluem a média, mediana e moda. A medida comum de spread inclui a variação e a faixa interquartil.
A variância (representada pelo sigma minúsculo grego aumentado para o poder dois) é comumente usada quando a média é relatada. A variação é o desvio médio quadrático da variável. O desvio é calculado subtraindo a média de cada observação. Isso é quadrado porque a soma seria zero e o quadrado remove esse problema enquanto mantém o tamanho relativo dos desvios. O problema de usar a variação como uma medida de spread é que ela está em unidades quadradas. Por exemplo, se nossa variável de interesse fosse a altura medida em polegadas, a variação seria relatada em polegadas quadradas, o que faz pouco sentido. O desvio padrão (representado pelo sigma minúsculo grego) é a raiz quadrada da variação e retorna a medida de dispersão para as unidades originais.
Ao usar o desvio padrão, é preciso ter cuidado com os valores discrepantes, pois eles distorcerão o desvio padrão (e a média), pois não são medidas resistentes de propagação. Um exemplo simples ilustrará essa propriedade. A média das minhas terríveis pontuações de 13, 14, 16, 23, 26, 28, 33, 39 e 61 é 28,11. Se considerarmos que 61 é um erro externo e o excluímos, a média seria 24.
Aqui está como eu responderia a essa pergunta usando um diagrama.
Digamos que pesemos 30 gatos e calculemos o peso médio. Em seguida, produzimos um gráfico de dispersão, com peso no eixo y e identidade do gato no eixo x. O peso médio pode ser desenhado como uma linha horizontal. Podemos então desenhar linhas verticais que conectam cada ponto de dados à linha média - esses são os desvios de cada ponto de dados em relação à média e os chamamos de residuais. Agora, esses resíduos podem ser úteis porque podem nos dizer algo sobre a disseminação dos dados: se existem muitos resíduos grandes, os gatos variam muito em massa. Por outro lado, se os resíduos são principalmente pequenos, então os gatos estão agrupados em torno do peso médio. Então, se pudéssemos ter alguma métrica que nos diga a médiacomprimento de um resíduo nesse conjunto de dados, essa seria uma maneira útil de denotar a quantidade de propagação existente nos dados. O desvio padrão é, efetivamente, o comprimento do resíduo médio.
Eu continuaria com isso, dando o cálculo para sd, explicando por que quadratura e depois raiz quadrada (eu gosto da explicação curta e doce de Vaibhav). Então eu mencionaria os problemas dos outliers, como Graham faz em seu último parágrafo.
Se as informações necessárias forem a distribuição de dados sobre a média, o desvio padrão será útil.
A soma da diferença de cada valor da média é zero (obviamente, uma vez que o valor está distribuído uniformemente em torno da média), portanto, dividimos cada diferença de modo a converter valores negativos em positivos, somando-os em toda a população e tomando suas raiz quadrada. Esse valor é então dividido pelo número de amostras (ou pelo tamanho da população). Isso fornece o desvio padrão.
Um desvio padrão é a raiz quadrada do segundo momento central de uma distribuição. Um momento central é a diferença esperada do valor esperado da distribuição. Um primeiro momento central seria geralmente 0, portanto, definimos um segundo momento central como o valor esperado da distância ao quadrado de uma variável aleatória e seu valor esperado.
Para colocá-lo em uma escala mais alinhada com as observações originais, pegamos a raiz quadrada desse segundo momento central e o chamamos de desvio padrão.
O desvio padrão é uma propriedade de uma população. Ele mede quanta "dispersão" média existe para essa população. Todas as observações estão agrupadas em torno da média ou estão amplamente espalhadas?
Para estimar o desvio padrão de uma população, geralmente calculamos o desvio padrão de uma "amostra" dessa população. Para fazer isso, você faz observações dessa população, calcula uma média dessas observações e, em seguida, calcula a raiz quadrada do desvio ao quadrado médio dessa "média da amostra".
Para obter um estimador imparcial da variância, você não calcula o desvio ao quadrado médio da média da amostra; em vez disso, divide por (N-1) onde N é o número de observações em sua amostra. Observe que esse "desvio padrão da amostra" não é um estimador imparcial do desvio padrão, mas o quadrado do "desvio padrão da amostra" é um estimador imparcial da variância da população.
A melhor maneira de entender o desvio padrão é pensar em um cabeleireiro! (Você precisa coletar dados de uma cabeleireira e calcular a velocidade de corte de cabelo para que este exemplo funcione.)
Demora em média 30 minutos para o cabeleireiro cortar o cabelo das pessoas.
Suponha que você faça o cálculo (a maioria dos pacotes de software fará isso por você) e descubra que o desvio padrão é de 5 minutos. Significa o seguinte:
Como eu sei disso? Você precisa observar a curva normal, onde 68% cai dentro de 1 desvio padrão e 96% cai dentro de 2 desvios padrão da média (neste caso, 30 minutos). Então você adiciona ou subtrai o desvio padrão da média.
Se a consistência for desejada, como neste caso, quanto menor o desvio padrão, melhor. Nesse caso, o cabeleireiro passa no máximo cerca de 40 minutos com qualquer cliente. Você precisa cortar o cabelo rápido, a fim de executar um salão de sucesso!