Hoje eu ensinei uma aula introdutória de estatística e um aluno veio até mim com uma pergunta, que refiz aqui: "Por que o desvio padrão é definido como sqrt de variação e não como sqrt da soma dos quadrados sobre N?"
Definimos variância populacional:
E desvio padrão: .
A interpretação que pode dar a é que dá o desvio médio de unidades na população a partir da média da população de .
No entanto, na definição do sd, dividimos o sqrt da soma dos quadrados por . A questão do aluno levanta é por isso que não dividir o sqrt do sume de quadrados porvez. Assim, chegamos à fórmula da concorrência:
Eu pensei que esta pergunta não é estúpida. Eu gostaria de dar uma resposta ao aluno que vai além de dizer que o sd é definido como sqrt da variância, que é o desvio quadrado médio. Em outras palavras, por que o aluno deve usar a fórmula correta e não seguir sua ideia?
Esta pergunta está relacionada a um tópico e respostas mais antigos fornecidos aqui . As respostas vão em três direções:
- é o desvio da raiz média quadrática (RMS), não o desvio "típico" da média (ou seja, ). Assim, é definido de forma diferente.
- Tem boas propriedades matemáticas.
- Além disso, o sqrt traria de volta "unidades" para sua escala original. No entanto, este também seria o caso para , que se divide por , em vez.
Ambos os pontos 1 e 2 são argumentos a favor do sd como RMS, mas não vejo um argumento contra o uso de . Quais seriam os bons argumentos para convencer os alunos do nível introdutório do uso da distância média do RMS à média?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Será que o que está dentro dos colchetes se perdeu de alguma maneira na questão?