Explicação intuitiva para dividir por ao calcular o desvio padrão?


136

Hoje me perguntaram na aula por que você divide a soma do erro do quadrado por vez de com , ao calcular o desvio padrão.n1n

Eu disse que não vou responder na aula (já que não queria entrar em avaliadores imparciais), mas depois me perguntei - uma explicação intuitiva para isso ?!


29
Eu gostaria de citar esse zinger do livro Numerical Recipes : "... se a diferença entre e alguma vez importa para você, então você provavelmente não está conseguindo algo bom - por exemplo, tentando substanciar uma hipótese questionável com dados marginais ". nn1
JM não é estatístico

11
uma explicação intuitiva e realmente elegante é apresentada aqui (abaixo da prova) en.wikipedia.org/wiki/… A idéia básica é que suas observações estejam, naturalmente, mais próximas da média da amostra do que da média da população.
WetlabStudent

12
@ Tal, é por isso que as escolas são péssimas. Você pergunta "por que isso ?", E eles respondem "apenas memorize".
Pacerier

1
Se você estiver procurando por uma explicação intuitiva, deverá ver o motivo por si mesmo colhendo amostras! Veja isso, ele responde com precisão à sua pergunta. youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary

tl; dr: (da resposta inicial :) "... o desvio padrão calculado usando os desvios da média da amostra subestima o desvio padrão desejado da população ..." Veja também: en.wikipedia.org/wiki/… Portanto, a menos que você queira calcular algo algo complexo, use n-1 se for de uma amostra.
Andrew Andrew

Respostas:


99

O desvio padrão calculado com um divisor de é um desvio padrão calculado a partir da amostra como uma estimativa do desvio padrão da população da qual a amostra foi retirada. Como os valores observados caem, em média, mais perto da média da amostra do que da média da população, o desvio padrão que é calculado usando desvios da média da amostra subestima o desvio padrão desejado da população. Usar vez de como divisor corrige isso, tornando o resultado um pouco maior.n1n1n

Observe que a correção tem um efeito proporcional maior quando é pequeno do que quando é grande, o que queremos, porque quando n é maior, a média da amostra provavelmente será um bom estimador da média da população.n

Quando a amostra é a população inteira, usamos o desvio padrão com como divisor, porque a média da amostra é a média da população.n

(Observo, entre parênteses, que nada que comece com o "segundo momento se aproximando de um meio conhecido e definido" atenderá ao pedido do questionador por uma explicação intuitiva.)


13
Não vamos confundir "intuitivo" com "não técnico".
whuber

32
@ Michael, isso não explica Por que usamos em n−1vez de n−2(ou mesmo n−3)?
Pacerier

1
@Pacerier Veja a resposta de Whuber abaixo para obter detalhes sobre esse ponto. Em essência, a correção é n-1 em vez de n-2, etc. porque a correção n-1 fornece resultados muito próximos do que precisamos. Correções mais exatas são mostradas aqui: en.wikipedia.org/wiki/Unbeased_estimation_of_standard_deviation
Michael Lew

1
Oi @ Michael, então por que o desvio calculado a partir da média da amostra tende a ser menor que a média da população?
Allen

1
"Como os valores observados caem, em média, mais perto da média da amostra do que da média da população, o desvio padrão que é calculado usando desvios da média da amostra subestima o desvio padrão desejado da população". Por que a média da amostra sempre subestima? E se superestimar?
Bora M. Alper

55

Um comum é que a definição de variância (de uma distribuição) é o segundo momento em torno de uma média definida e conhecida , enquanto o estimador usa uma média estimada . Essa perda de um grau de liberdade (dada a média, você pode reconstituir o conjunto de dados com conhecimento de apenas dos valores dos dados) requer o uso de n - 1 em vez de n para "ajustar" o resultado.n1n1n

Essa explicação é consistente com as variações estimadas na ANOVA e na análise de componentes de variação. É realmente apenas um caso especial.

A necessidade de fazer alguns ajustes que aumentem a variação pode, penso, ser esclarecida intuitivamente com um argumento válido que não é apenas um aceno manual ex post facto . (Lembro-me de que Student pode ter apresentado tal argumento em seu artigo de 1908 sobre o teste t.) Por que o ajuste à variação deve ser exatamente um fator de é mais difícil de justificar, especialmente quando você considera que o SD ajustado não én/(n1)um estimador imparcial. (É apenas a raiz quadrada de um estimador imparcial da variância. Ser imparcial geralmente não sobrevive a uma transformação não-linear.) Portanto, de fato, o ajuste correto ao SD para remover seu viés não é um fator de todo!n/(n1)

Alguns livros introdutórios nem se dão ao trabalho de introduzir o sd ajustado: eles ensinam uma fórmula (divida por ). Primeiro, eu reagi negativamente ao ensinar a partir de um livro desse tipo, mas passei a apreciar a sabedoria: para focar nos conceitos e aplicações, os autores eliminam todas as sutilezas matemáticas não essenciais. Acontece que nada está ferido e ninguém é enganado.n


1
Obrigado Whuber. Eu tenho que ensinar os alunos com a correção n-1, então dividir apenas n não é uma opção. Como já foi escrito, mencionar a conexão com o segundo momento não é uma opção. Apesar de mencionar como a média já foi estimada, nos deixa com menos "dados" para o sd - isso é importante. Quanto ao viés do SD - lembrei-me de encontrá-lo - obrigado por levar esse ponto para casa. Melhor, Tal
Tal Galili

3
@ Tal que eu estava escrevendo no seu idioma, não no dos seus alunos, porque estou confiante de que você é totalmente capaz de traduzi-lo para o que você sabe que chegará até eles. Em outras palavras, interpretei "intuitivo" em sua pergunta como intuitivo para você .
whuber

1
Oi Whuber. Obrigado pelo voto de confiança :). A perda do grau de liberdade para a estimativa da expectativa é uma que eu estava pensando em usar em sala de aula. O problema é que o conceito de "graus de liberdade" por si só é aquele que precisa de conhecimento / intuição. Mas combiná-lo com algumas das outras respostas fornecidas neste tópico será útil (para mim, e espero que outros no futuro). Melhor, Tal
Tal Galili

Para grande , normalmente não há muita diferença entre dividir por n ou n - 1 ; portanto, seria aceitável introduzir a fórmula não corrigida, desde que se pretendesse aplicar a amostras grandes, não? nnn1
precisa saber é o seguinte

1
@ Patrick Você pode estar lendo demais a minha resposta, porque é explícito os motivos: eles são pedagógicos e não têm nada a ver com o fato de ser grande ou não. n
whuber

50

Por definição, a variação é calculada considerando a soma das diferenças ao quadrado da média e dividindo pelo tamanho. Nós temos a fórmula geral

ondeμé a média eNé o tamanho da população.σ2=iN(Xiμ)2NμN

De acordo com essa definição, a variação da amostra a (por exemplo, amostra ) também deve ser calculada dessa maneira.t

onde ¯ X é a médiaené o tamanho desta pequena amostra.σt2=in(XiX¯)2nX¯n

No entanto, por variância amostral , queremos dizer um estimador da variância populacional σ 2 . Como podemos estimar σ 2 apenas usando os valores da amostra?S2σ2σ2

De acordo com as fórmulas acima, a variável aleatória se desvia da média da amostra ¯ X com variação σ 2 t . A média da amostra ¯ X também se desvia de μ com variância σ 2XX¯σt2X¯μ porque a média da amostra obtém valores diferentes de amostra para amostra e é uma variável aleatória com médiaμe variânciaσ2σ2nμ . (Pode-se provar facilmente.)σ2n

Portanto, aproximadamente, deve desviar-se de μ com uma variação que envolve duas variações, então some essas duas e obtenha σ 2 = σ 2 t + σ 2Xμ . Resolvendo isso, obtemosσ2=σ 2 t ×nσ2=σt2+σ2n . Substituirσ 2 t fornece nosso estimador de variação populacional:σ2=σt2×nn1σt2

.S2=in(XiX¯)2n1

Pode-se também provar que é verdadeiro.E[S2]=σ2


Espero que isso não seja muito trivial: é o fato de que a média da amostra converge para ND ( , σμ ) como n se torna arbitrariamente grande, a razão pela qual a média da amostra se desvia da média real com a variaçãoσ2σn ? σ2n
RexYuan

6
Esta é uma explicação melhor do que as outras, porque mostra as equações e derivações em vez de simplesmente usar yagga yagga com termos estatísticos.
Nav

1
@sevenkul podemos ver como visualmente isso? quando você diz, X deve desviar-se de com essa variação líquida, estou perdido ao visualizar isso #μ
Parthiban Rajendran

17

Essa é uma intuição total, mas a resposta mais simples é que é uma correção feita para tornar o desvio padrão da amostra de um elemento indefinido em vez de 0.


11
Por que não, então, use ou até1nn21 como correções? :-)1exp(1)exp(1/n)
whuber

1
@whuber Parsimony (-;

4
é ainda mais "parcimonioso". :-)1n1
whuber

2
@mbq, em relação à sua resposta ~ "é uma correção feita para tornar o desvio padrão da amostra de um elemento indefinido em vez de 0", é essa mesmo a razão, ou é uma resposta de brincadeira? Você sabe que não-matemáticos como nós não sabem dizer.
Pacerier 3/06

4
Formalmente, é uma consequência do que a razão, mas, como escrevi, acho que é uma boa intuição memorizá-la.

14

Você pode obter uma compreensão mais profunda do termo com a geometria, não apenas por que não é n, mas por que ele assume exatamente essa forma, mas primeiro você pode precisar criar sua intuição para lidar com a geometria n- dimensional. A partir daí, porém, é um pequeno passo para uma compreensão mais profunda dos graus de liberdade nos modelos lineares (isto é, modelo df e residual df). Acho que há poucas dúvidas de que Fisher pensasse assim. Aqui está um livro que o constrói gradualmente:n1nn

Saville DJ, madeira GR. Métodos estatísticos: a abordagem geométrica . 3ª edição. Nova Iorque: Springer-Verlag; 1991. 560 páginas. 9780387975177

(Sim, 560 páginas. Eu disse gradualmente.)


Obrigado onestop - não achei que haveria uma resposta dessa direção. Alguma maneira de resumir a intuição, ou não é provável que seja possível? Cheers, Tal
Tal Galili

Eu não poderia fazer isso sozinho, mas um revisor de livros resumiu a abordagem em um parágrafo da Amer. Estado. em 1993: jstor.org/stable/2684984 . Não tenho certeza se é realmente prático usar essa abordagem com seus alunos, a menos que você a adote durante todo o curso.
onestop 24/10/10

Você pode resumir um pouco da intuição em vez de apenas uma referência de livro?
oliversm 30/09

12

O estimador da variação populacional é enviesado quando aplicado em uma amostra da população. Para ajustar esse viés, é necessário dividir por n-1 em vez de n. Pode-se mostrar matematicamente que o estimador da variância da amostra é imparcial quando dividimos por n-1 em vez de n. Uma prova formal é fornecida aqui:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

Inicialmente, foi a correção matemática que levou à fórmula, suponho. No entanto, se alguém deseja adicionar intuição a uma fórmula, as sugestões já mencionadas parecem razoáveis.

Primeiro, as observações de uma amostra estão, em média, mais próximas da média da amostra do que da média da população. O estimador de variância utiliza a média da amostra e, como conseqüência, subestima a verdadeira variância da população. Dividir por n-1 em vez de n corrige esse viés.

Além disso, dividir por n-1 torna a variação de uma amostra de um elemento indefinida em vez de zero.


12

Por que dividir por vez de n ? Porque é habitual e resulta em uma estimativa imparcial da variação. No entanto, resulta em uma estimativa tendenciosa (baixa) do desvio padrão, como pode ser visto aplicando a desigualdade de Jensen à função côncava, raiz quadrada.n1n

Então, o que há de tão bom em ter um estimador imparcial? Não necessariamente minimiza o erro quadrático médio. O MLE para uma distribuição Normal é dividido por vez de n - 1 . Ensine seus alunos a pensar, em vez de regurgitar e aplicar irracionalmente noções antiquadas de um século atrás.nn1


8
(+1) Quanto mais eu penso sobre essa situação (e eu pensei bastante nisso, na medida em que pesquisava artigos anteriores, como a contribuição da Student Biometrica de 1908 para tentar rastrear quando e por que o apareceu ), mais acho que "porque é habitual" é a única resposta correta possível. Estou infeliz por ver os votos negativos e só posso supor que eles estão respondendo à última frase, que pode ser facilmente vista como atacando o OP, mesmo que eu duvide que essa seja sua intenção. n1
whuber

1
Minha última frase foi um conselho amigável a todos os envolvidos, em oposição a um ataque ao OP.
Mark L. Stone

Em muito uso, não importa, quando usado em testes ou em intervalos de confiança, seria necessário ajustar outras partes do procedimento e, no final, obter o mesmo resultado!
precisa saber é o seguinte

8

É bem sabido (ou facilmente comprovado) que o quadrático tem um extremo em z = - βαz2+2βz+γ . Isso mostra que, para quaisquernnúmeros reaisx1,x2,,xn, a quantidade G(a)= n i=1(xi-a)2=( n i = 1 x 2 i )-2a( n i = 1 xi)+nz=βαnx1,x2,,xn tem valor mínimo quando a = 1

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
.a=1ni=1nxi=x¯

Agora, suponha que o são uma amostra de tamanho n de uma distribuição com média desconhecida μ e variância desconhecida σ 2 . Podemos estimar μ como 1xinμσ2μ que é fácil de calcular, mas uma tentativa de estimarσ2 como11ni=1nxi=x¯σ2encontra o problema que não conhecemosμ. É claro que podemos calcular prontamente G( ˉ x )e sabemos queG(μ)G( ˉ x ), mas quanto maior éG(μ)? A resposta é que G(μ)1ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)é maior que por um fator de aproximadamente nG(x¯) , ou seja, G ( μ ) nnn1e, portanto, aestimativan-1G(μ)=1

(1)G(μ)nn1G(x¯)
para a variação da distribuição pode ser aproximada por 1n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

Então, qual é a explicação intuitiva de ? Bem, nós temos esse G ( μ )(1) desdeΣ n i = 1 (xi- ˉ x )=n ˉ x -n ˉ x =0. Agora, n ( ˉ x - μ ) 2

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0 Exceto quando temos uma amostra extraordinariamente incomum na qual todos osxisão maiores queμ(ou são todos menores que μ), as somas(xi-μ)(xj-μ)na soma dupla no lado direito de(3)
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμ(xiμ)(xjμ)(3)assumir valores positivos e negativos e, portanto, muitos cancelamentos ocorrem. Assim, pode-se esperar que a soma dupla tenha pequeno valor absoluto, e nós simplesmente a ignoramos em comparação com a TermoG(μ)no lado direito de(3). Assim,(2) torna-se G(μ)G( ˉ x )+11nG(μ)(3)(2) tal como reivindicado em(1).
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
Somente nessa troca de pilhas isso seria considerado uma resposta intuitiva.
Joseph Garvin

6

Variância da amostra pode ser pensado para ser a média exata da "energia" em pares entre todos os pontos de amostragem. A definição de variação da amostra torna-se então s 2 = 2(xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

Isso também concorda com a definição da variância de uma variável aleatória como a expectativa da energia em pares, ou seja, sejam e Y variáveis ​​aleatórias independentes com a mesma distribuição, então V ( X ) = E ( ( X - Y ) 2XY

V(X)=E((XY)22)=E((XE(X))2).

Ir da definição de variância aleatória para a definição de variância amostral é uma questão de estimar uma expectativa por uma média que pode ser justificada pelo princípio filosófico da tipicidade: A amostra é uma representação típica da distribuição. (Observe que isso está relacionado, mas não é o mesmo que a estimativa por momentos.)


2
V(X)=E((XY)22)=E((XE(X))2)

4
(xixi)2s2nn1
whuber

4

N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

yxyN1=0

0d+1dd+1


Não está claro por que "uma variação infinita seria um resultado mais sólido" do que uma variação zero. De fato, você parece usar "variação de amostra" no sentido de um estimador de variação , o que é mais confuso ainda.
whuber

1
0<

4

Por sugestão do whuber , essa resposta foi copiada de outra pergunta semelhante .

A correção de Bessel é adotada para corrigir o viés no uso da variação da amostra como estimador da variação verdadeira. O viés na estatística não corrigida ocorre porque a média da amostra está mais próxima do meio das observações que a média real e, portanto, os desvios quadrados ao redor da média da amostra subestimam sistematicamente os desvios quadrados da média verdadeira.

S2n

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

Taking expectations yields:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

So you can see that the uncorrected sample variance statistic underestimates the true variance σ2. Bessel's correction replaces the denominator with n1 which yields an unbiased estimator. In regression analysis this is extended to the more general case where the estimated mean is a linear function of multiple predictors, and in this latter case, the denominator is reduced further, for the lower number of degrees-of-freedom.


Obrigado pela prova!
up

0

Geralmente, usar "n" no denominador fornece valores menores do que a variação populacional que é o que queremos estimar. Isso acontece especialmente se as pequenas amostras forem coletadas. No idioma da estatística, dizemos que a variação da amostra fornece uma estimativa "tendenciosa" da variação da população e precisa ser "imparcial".

Se você está procurando uma explicação intuitiva, deixe seus alunos verem o motivo de si mesmos, colhendo amostras! Veja isso, ele responde com precisão à sua pergunta.

https://www.youtube.com/watch?v=xslIhnquFoE


0

A média da amostra é definida como X¯=1nEu=1nXEu, o que é bastante intuitivo. Mas a variação da amostra éS2=1n-1Eu=1n(XEu-X¯)2. Onde é que on-1 vem de onde ?

Para responder a essa pergunta, precisamos voltar à definição de um estimador imparcial. Um estimador imparcial é aquele cuja expectativa tende à verdadeira expectativa. A média da amostra é um estimador imparcial. Para ver o porquê:

E[X¯]=1nEu=1nE[XEu]=nnμ=μ

Vejamos a expectativa da variação da amostra,

S2=1n-1Eu=1n(XEu2)-nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

Notice that X¯ is a random variable and not a constant, so the expectation E[X¯2] plays a role. This is the reason behind the n1.

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

As you can see, if we had the denominator as n instead of n1, we would get a biased estimate for the variance! But with n1 the estimator S2 is an unbiased estimator.


3
Mas não segue isso S é um estimador imparcial do desvio padrão.
Scortchi

-1

I think it's worth pointing out the connection to Bayesian estimation. Suppose you assume your data is Gaussian, and so you measure the mean μ and variance σ2 of a sample of n points. You want to draw conclusions about the population. The Bayesian approach would be to evaluate the posterior predictive distribution over the sample, which is a generalized Student's T distribution (the origin of the T-test). This distribution has mean μ, and variance

σ2(n+1n1),

which is even larger than the typical correction. (It has 2n degrees of freedom.)

The generalized Student's T distribution has three parameters and makes use of all three of your statistics. If you decide to throw out some information, you can further approximate your data using a two-parameter normal distribution as described in your question.

From a Bayesian standpoint, you can imagine that uncertainty in the hyperparameters of the model (distributions over the mean and variance) cause the variance of the posterior predictive to be greater than the population variance.


-4

Meu Deus, está ficando complicado! Eu pensei que a resposta simples era ... se você tem todos os pontos de dados, pode usar "n", mas se você tiver uma "amostra", supondo que seja uma amostra aleatória, você terá mais pontos de amostra dentro do desvio padrão do que de fora (a definição de desvio padrão). Você simplesmente não possui dados suficientes no exterior para garantir que obtenha todos os pontos de dados necessários aleatoriamente. O n-1 ajuda a expandir em direção ao desvio padrão "real".


3
Isso não faz sentido. Mais pontos de dentro do SD do que fora? Se isso significa dentro de 1 DP da média versus não dentro, se isso é verdade não tem nada a ver com a coleta de uma amostra. Para restrições necessárias sobre frações dentro de intervalos em torno da média, consulte a desigualdade de Chebyshev. Para a questão principal aqui, "ajuda a expandir" não explican-1 de todo, como mesmo concedendo seu argumento n-2pode ser melhor ainda, e assim por diante, pois não há álgebra aqui, mesmo implicitamente. Infelizmente, isso não acrescenta nada a outras respostas, exceto um conjunto confuso de idéias, incorretas ou irrelevantes.
Nick Cox
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.