Por que estamos usando uma fórmula de desvio padrão tendenciosa e enganosa para


20

Foi um choque para mim a primeira vez que fiz uma simulação de Monte Carlo de distribuição normal e descobri que a média de desvios padrão de amostras, todas com um tamanho de amostra de apenas , provou ser muito menos do que, ie, a média de vezes, o usado para gerar a população. No entanto, isso é bem conhecido, se raramente lembrado, e eu meio que sabia, ou não teria feito uma simulação. Aqui está uma simulação.100100n=22πσ

Aqui está um exemplo para prever intervalos de confiança de 95% de usando 100, n = 2 , estimativas de \ text {SD} e \ text {E} (s_ {n = 2}) = \ sqrt \ frac {\ pi} {2} \ text {SD} .N(0,1)n=2SDE(sn=2)=π2SD

 RAND()   RAND()    Calc    Calc    
 N(0,1)   N(0,1)    SD      E(s)    
-1.1171  -0.0627    0.7455  0.9344  
 1.7278  -0.8016    1.7886  2.2417  
 1.3705  -1.3710    1.9385  2.4295  
 1.5648  -0.7156    1.6125  2.0209  
 1.2379   0.4896    0.5291  0.6632  
-1.8354   1.0531    2.0425  2.5599  
 1.0320  -0.3531    0.9794  1.2275  
 1.2021  -0.3631    1.1067  1.3871  
 1.3201  -1.1058    1.7154  2.1499  
-0.4946  -1.1428    0.4583  0.5744  
 0.9504  -1.0300    1.4003  1.7551  
-1.6001   0.5811    1.5423  1.9330  
-0.5153   0.8008    0.9306  1.1663  
-0.7106  -0.5577    0.1081  0.1354  
 0.1864   0.2581    0.0507  0.0635  
-0.8702  -0.1520    0.5078  0.6365  
-0.3862   0.4528    0.5933  0.7436  
-0.8531   0.1371    0.7002  0.8775  
-0.8786   0.2086    0.7687  0.9635  
 0.6431   0.7323    0.0631  0.0791  
 1.0368   0.3354    0.4959  0.6216  
-1.0619  -1.2663    0.1445  0.1811  
 0.0600  -0.2569    0.2241  0.2808  
-0.6840  -0.4787    0.1452  0.1820  
 0.2507   0.6593    0.2889  0.3620  
 0.1328  -0.1339    0.1886  0.2364  
-0.2118  -0.0100    0.1427  0.1788  
-0.7496  -1.1437    0.2786  0.3492  
 0.9017   0.0022    0.6361  0.7972  
 0.5560   0.8943    0.2393  0.2999  
-0.1483  -1.1324    0.6959  0.8721  
-1.3194  -0.3915    0.6562  0.8224  
-0.8098  -2.0478    0.8754  1.0971  
-0.3052  -1.1937    0.6282  0.7873  
 0.5170  -0.6323    0.8127  1.0186  
 0.6333  -1.3720    1.4180  1.7772  
-1.5503   0.7194    1.6049  2.0115  
 1.8986  -0.7427    1.8677  2.3408  
 2.3656  -0.3820    1.9428  2.4350  
-1.4987   0.4368    1.3686  1.7153  
-0.5064   1.3950    1.3444  1.6850  
 1.2508   0.6081    0.4545  0.5696  
-0.1696  -0.5459    0.2661  0.3335  
-0.3834  -0.8872    0.3562  0.4465  
 0.0300  -0.8531    0.6244  0.7826  
 0.4210   0.3356    0.0604  0.0757  
 0.0165   2.0690    1.4514  1.8190  
-0.2689   1.5595    1.2929  1.6204  
 1.3385   0.5087    0.5868  0.7354  
 1.1067   0.3987    0.5006  0.6275  
 2.0015  -0.6360    1.8650  2.3374  
-0.4504   0.6166    0.7545  0.9456  
 0.3197  -0.6227    0.6664  0.8352  
-1.2794  -0.9927    0.2027  0.2541  
 1.6603  -0.0543    1.2124  1.5195  
 0.9649  -1.2625    1.5750  1.9739  
-0.3380  -0.2459    0.0652  0.0817  
-0.8612   2.1456    2.1261  2.6647  
 0.4976  -1.0538    1.0970  1.3749  
-0.2007  -1.3870    0.8388  1.0513  
-0.9597   0.6327    1.1260  1.4112  
-2.6118  -0.1505    1.7404  2.1813  
 0.7155  -0.1909    0.6409  0.8033  
 0.0548  -0.2159    0.1914  0.2399  
-0.2775   0.4864    0.5402  0.6770  
-1.2364  -0.0736    0.8222  1.0305  
-0.8868  -0.6960    0.1349  0.1691  
 1.2804  -0.2276    1.0664  1.3365  
 0.5560  -0.9552    1.0686  1.3393  
 0.4643  -0.6173    0.7648  0.9585  
 0.4884  -0.6474    0.8031  1.0066  
 1.3860   0.5479    0.5926  0.7427  
-0.9313   0.5375    1.0386  1.3018  
-0.3466  -0.3809    0.0243  0.0304  
 0.7211  -0.1546    0.6192  0.7760  
-1.4551  -0.1350    0.9334  1.1699  
 0.0673   0.4291    0.2559  0.3207  
 0.3190  -0.1510    0.3323  0.4165  
-1.6514  -0.3824    0.8973  1.1246  
-1.0128  -1.5745    0.3972  0.4978  
-1.2337  -0.7164    0.3658  0.4585  
-1.7677  -1.9776    0.1484  0.1860  
-0.9519  -0.1155    0.5914  0.7412  
 1.1165  -0.6071    1.2188  1.5275  
-1.7772   0.7592    1.7935  2.2478  
 0.1343  -0.0458    0.1273  0.1596  
 0.2270   0.9698    0.5253  0.6583  
-0.1697  -0.5589    0.2752  0.3450  
 2.1011   0.2483    1.3101  1.6420  
-0.0374   0.2988    0.2377  0.2980  
-0.4209   0.5742    0.7037  0.8819  
 1.6728  -0.2046    1.3275  1.6638  
 1.4985  -1.6225    2.2069  2.7659  
 0.5342  -0.5074    0.7365  0.9231  
 0.7119   0.8128    0.0713  0.0894  
 1.0165  -1.2300    1.5885  1.9909  
-0.2646  -0.5301    0.1878  0.2353  
-1.1488  -0.2888    0.6081  0.7621  
-0.4225   0.8703    0.9141  1.1457  
 0.7990  -1.1515    1.3792  1.7286  

 0.0344  -0.1892    0.8188  1.0263  mean E(.)
                    SD pred E(s) pred   
-1.9600  -1.9600   -1.6049 -2.0114    2.5%  theor, est
 1.9600   1.9600    1.6049  2.0114   97.5%  theor, est
                    0.3551 -0.0515    2.5% err
                   -0.3551  0.0515   97.5% err

Arraste o controle deslizante para baixo para ver os totais gerais. Agora, usei o estimador SD comum para calcular intervalos de confiança de 95% em torno de uma média de zero, e eles são desativados em 0,33551 unidades de desvio padrão. O estimador E (s) está desativado por apenas 0,0515 unidades de desvio padrão. Se alguém estimar o desvio padrão, erro padrão da média ou estatística t, pode haver um problema.

Meu raciocínio foi o seguinte: a média da população, , de dois valores pode estar em qualquer lugar em relação a um e definitivamente não está localizada em , o que representa uma soma mínima possível possível ao quadrado para subestimarmos substancialmente , como seguex 1 x 1 + x 2μx1 σx1+x22σ

wlog deixa , então é , o menor resultado possível.Σ n i = 1 ( x i - ˉ x ) 2 2 ( dx2x1=dΣi=1n(xix¯)22(d2)2=d22

Isso significa que o desvio padrão calculado como

SD=Σi=1n(xix¯)2n1 ,

é um estimador enviesado do desvio padrão da população ( ). Observe que nessa fórmula diminuímos os graus de liberdade de por 1 e dividimos por , ou seja, fazemos alguma correção, mas é apenas assintoticamente correta, e seria uma regra de ouro melhor . No nosso exemplo a fórmula nos daria , um valor mínimo estatisticamente implausível como , onde um valor melhor do que o esperado ( ) serian n - 1 n - 3 / 2 x 2 - x 1 = d SD S D = dσnn1n3/2x2x1=dSDuˉxsE(s)=SD=d20.707dμx¯sn<10DPσn25n<25n=1000E(s)=π2d2=π2d0.886d. Para o cálculo usual, para , s sofre uma subestimação muito significativa chamada viés de número pequeno , que apenas se aproxima de 1% da subestimação de quando é aproximadamente . Como muitos experimentos biológicos têm , isso é realmente um problema. Para , o erro é de aproximadamente 25 partes em 100.000. Em geral, a correção do viés de número pequeno implica que o estimador imparcial do desvio padrão populacional de uma distribuição normal sejan<10SDσn25n<25n=1000

E(s)=Γ(n-12)Γ(n2)ΣEu=1n(xEu-x¯)22>SD=ΣEu=1n(xEu-x¯)2n-1.

Na Wikipedia, sob licença de creative commons, temos um gráfico de subestimação SD deσ <a title = "Por Rb88guy (Trabalho próprio) [CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0) ou GFDL (http://www.gnu.org/copyleft/fdl .html)], via Wikimedia Commons "href =" https://commons.wikimedia.org/wiki/File%3AStddevc4factor.jpg "> <img width =" 512 "alt =" Stddevc4factor "src =" https: // upload.wikimedia.org/wikipedia/commons/thumb/e/ee/Stddevc4factor.jpg/512px-Stddevc4factor.jpg "/> </a>

Como SD é um estimador tendencioso do desvio padrão populacional, ele não pode ser o estimador imparcial mínimo de variância MVUE do desvio padrão populacional, a menos que tenhamos prazer em dizer que é MVUE como , o que eu não sou.n

Sobre distribuições não normais e aproximadamente imparcial, leia isso .SD

Agora vem a pergunta Q1

Pode-se provar que o acima é MVUE para de uma distribuição normal do tamanho da amostra , onde é um número inteiro positivo maior que um?σ n nE(s)σnn

Dica: (mas não a resposta) consulte Como posso encontrar o desvio padrão do desvio padrão da amostra de uma distribuição normal? .

Próxima pergunta, Q2

Alguém poderia me explicar por que estamos usando qualquer maneira, pois é claramente tendencioso e enganoso? Ou seja, por que não usar para quase tudo? SDE(s)Como complemento, ficou claro nas respostas abaixo que a variação é imparcial, mas sua raiz quadrada é tendenciosa. Eu pediria que as respostas abordassem a questão de quando o desvio padrão imparcial deve ser usado.

Como se vê, uma resposta parcial é que, para evitar viés na simulação acima, as variações poderiam ter sido calculadas em média, e não os valores de SD. Para ver o efeito disso, se quadrilharmos a coluna SD acima e calcularmos a média desses valores, obtemos 0,9994, cuja raiz quadrada é uma estimativa do desvio padrão 0,9996915 e cujo erro é de apenas 0,0006 para a cauda de 2,5% e -0.0006 para a cauda de 95%. Observe que isso ocorre porque as variações são aditivas, portanto, calculá-las é um procedimento de baixo erro. No entanto, os desvios padrão são enviesados ​​e, nos casos em que não temos o luxo de usar variações como intermediário, ainda precisamos de pequenas correções numéricas. Mesmo se pudermos usar a variação como intermediário, neste caso paran=100, a correção de amostra pequena sugere a multiplicação da raiz quadrada da variância imparcial 0,99996915 por 1,002528401 para fornecer 1,002219148 como uma estimativa imparcial do desvio padrão. Então, sim, podemos atrasar o uso da correção de números pequenos, mas devemos ignorá-la completamente?

A questão aqui é quando devemos usar a correção de números pequenos, em vez de ignorar seu uso, e predominantemente evitamos seu uso.

Aqui está outro exemplo: o número mínimo de pontos no espaço para estabelecer uma tendência linear com erro é três. Se ajustarmos esses pontos com mínimos quadrados comuns, o resultado para muitos desses ajustes é um padrão residual normal dobrado se houver não linearidade e metade normal se houver linearidade. No caso semi-normal, nossa média de distribuição requer pequena correção de número. Se tentarmos o mesmo truque com 4 ou mais pontos, a distribuição geralmente não será relacionada ou fácil de caracterizar. Podemos usar a variação para de alguma forma combinar esses resultados de 3 pontos? Talvez não. No entanto, é mais fácil conceber problemas em termos de distâncias e vetores.


Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
whuber

3
Q1: Veja o teorema de Lehmann-Scheffe.
Scortchi - Restabelece Monica

1
A tendência diferente de zero de um estimador não é necessariamente uma desvantagem. Por exemplo, se desejamos ter um estimador preciso sob perda quadrada, estamos dispostos a induzir viés, desde que ele reduza a variação em uma quantidade suficientemente grande. É por isso que os estimadores regularizados (enviesados) podem ter um desempenho melhor que o estimador OLS (imparcial) em um modelo de regressão linear, por exemplo.
Richard Hardy

3
@Carl muitos termos são usados ​​de maneira diferente em diferentes áreas de aplicação. Se você está postando em um grupo de estatísticas e usa um termo de jargão como "viés", naturalmente se supõe que você esteja usando o (s) significado (s) específico (s) do termo específico para as estatísticas. Se você quer dizer algo mais, é essencial usar um termo diferente ou definir claramente o que você quer dizer com o termo logo no primeiro uso.
Glen_b -Reinstala Monica

2
"viés" é certamente um termo de jargão - palavras ou expressões especiais usadas por uma profissão ou grupo que são difíceis de entender para outros parecem muito bem o que é "viés". É porque esses termos têm definições precisas e especializadas em suas áreas de aplicação (incluindo definições matemáticas) que os tornam termos de jargão.
Glen_b -Reinstala Monica

Respostas:


34

Para a pergunta mais restrita

Por que uma fórmula de desvio padrão tendenciosa é normalmente usada?

a resposta simples

Porque a variação associada estimador de é imparcial. Não há justificativa matemática / estatística real.

pode ser preciso em muitos casos.

No entanto, este nem sempre é o caso. Há pelo menos dois aspectos importantes dessas questões que devem ser entendidos.

Primeiro, a variância amostral não é apenas imparcial para variáveis ​​aleatórias gaussianas. É imparcial para qualquer distribuição com variância finita σ 2 (como discutido abaixo, na minha resposta original). A pergunta observa que s não é imparcial para σ e sugere uma alternativa que não é imparcial para uma variável aleatória gaussiana. No entanto, é importante notar que, ao contrário da variância, para o desvio padrão é nãos2σ2sσ possível ter uma "distribuição gratuita" estimador (* ver nota abaixo).

Segundo, como mencionado no comentário do whuber, o fato de que é tendencioso não afeta o "teste t" padrão. Primeiro, observe que, para uma variável gaussiana x , se estimarmos os escores z de uma amostra { x i } como z i = x i - μsx{xi}

zi=xiμσxix¯s
então eles serão tendenciosos.

No entanto, a estatística t é normalmente usada no contexto da distribuição amostral de . Nesse caso, o escore z seria z ˉ x = ˉ x - μx¯ embora não possamos calcular nemznemt, pois não sabemosμ. No entanto, se aestatísticaz ˉ x for normal, aestatísticatseguirá uma distribuição de Student-t. Esta não é uma larganaproximação. A única suposição é quex

zx¯=x¯μσx¯x¯μs/n=t
ztμzx¯tnx amostras são i Gaussianas.

(Normalmente o t-teste é aplicada de forma mais ampla para, possivelmente, não-Gaussiana . Este não confiar em larga n , que pelo limite central teorema garante que ˉ x ainda vai ser Gaussiana.)xnx¯


* Esclarecimento sobre "estimador imparcial e livre de distribuição"

Por "distribuição livre", quero dizer que o estimador não pode depender de nenhuma informação sobre a população além da amostra { x 1 , , x n } . Por "imparcial" Quero dizer que o erro esperado E [ θ n ] - θ é uniformemente zero, independente do tamanho da amostra n . (Ao contrário de um estimador que é meramente assintoticamente imparcial, também conhecido como " consistente ", para o qual o viés desaparece como n .)x{x1,,xn}E[θ^n]θnn

Nos comentários, isso foi dado como um possível exemplo de um "estimador imparcial sem distribuição". Abstraindo de um bit, isto é estimador da forma σ = f [ s , n , κ x ] , onde κ x é o excesso de curtose de x . Este estimador não é "livre de distribuição", pois κ x depende da distribuição de x . O estimador é dito para satisfazer E [ σ ] - σ x = O [ 1σ^=f[s,n,κx]κxxκxx, ondeσ 2 x é a variação dex. Portanto, o estimador é consistente, mas não (absolutamente) "imparcial", comoO[1E[σ^]σx=O[1n]σx2xpode ser arbitrariamente grande paranpequeno.O[1n]n


Nota: Abaixo está minha "resposta" original. Daqui em diante, os comentários são sobre a média e variância padrão da "amostra", que são estimadores imparciais "livres de distribuição" (ou seja, não se supõe que a população seja gaussiana).

Esta não é uma resposta completa, mas um esclarecimento sobre o motivo pelo qual a fórmula de variação da amostra é comumente usada.

Dada uma amostra aleatória , desde que as variáveis ​​tenham uma média comum, o estimador ˉ x = 1{x1,,xn}seráimparcial, ie E[xi]=μx¯=1nixi

E[xi]=μE[x¯]=μ

Se as variáveis ​​também tiverem uma variância finita comum e não estiverem correlacionadas , o estimador irátambémser neutro, ou seja, E[xixj]-μ2={ σ 2 i = j 0 i js2=1n1i(xix¯)2 Observe que a imparcialidade desses estimadores dependeapenasdas suposições acima (e dalinearidadeda expectativa; a prova é apenas álgebra). O resultadonãodepende de nenhuma distribuição específica, como gaussiana. As variáveis x i quenãotem que ter uma distribuição comum, e eles nem sequer tem que serindependente(ou seja, a amostra não tem que seriid

E[xixj]μ2={σ2i=j0ijE[s2]=σ2
xi ).

O "desvio padrão da amostra" não é um estimador imparcial, sσ , mas, no entanto, é comumente usado. Meu palpite é que isso é simplesmente porque é a raiz quadrada da variação imparcial da amostra. (Sem justificativa mais sofisticada.)ssσ

No caso de uma amostra de Gauss iid, as estimativas de probabilidade máxima (MLE) dos parâmetros são μ M G E = ˉ x e ( σ 2 ) M G E = n - 1μ^MLE=x¯, ou seja, a variação divide-se porn emvez den2. Além disso, no caso gaidiano do iid, o desvio padrão MLE é apenas a raiz quadrada da variação do MLE. No entanto, essas fórmulas, assim como a sugerida em sua pergunta, dependem da suposição gaussiana de id.(σ^2)MLE=n1ns2nn2


Atualização: esclarecimentos adicionais sobre "tendencioso" vs. "imparcial".

Considere uma amostra de elemento como acima, X = { x 1 , , x n } , com desvio do quadrado da soma δ 2 n = i ( x i - ˉ x ) 2 Dadas as premissas descritas na primeira parte acima , temos necessariamente E [ δ 2 n ] = ( n - 1 ) σ 2, de modo que o estimador de MLE (Gaussiano) é tendencioso ^ σ 2nX={x1,,xn}

δn2=i(xix¯)2
E[δn2]=(n1)σ2
enquanto o estimador de "variância amostral" é imparcial s 2 n =1
σn2^=1nδn2E[σn2^]=n1nσ2
sn2=1n1δn2E[sn2]=σ2

Agora é verdade que se torna menos tendencioso à medida que o tamanho da amostra n aumenta. No entanto, s 2 n tem um viés zero, independentemente do tamanho da amostra (contanto que n > 1 ). Para ambos os estimadores, a variação de sua distribuição amostral será diferente de zero e dependerá de n .σn2^nsn2n>1n

Como exemplo, o código Matlab abaixo considera um experimento com amostras de uma população normal normal z . Para estimar as distribuições de amostragem para ˉ x , ^ σ 2 , s 2 , o experimento é repetido N = 10 6 vezes. (Você pode recortar e colar o código aqui para experimentá-lo.)n=2zx¯,σ2^,s2N=106

% n=sample size, N=number of samples
n=2; N=1e6;
% generate standard-normal random #'s
z=randn(n,N); % i.e. mu=0, sigma=1
% compute sample stats (Gaussian MLE)
zbar=sum(z)/n; zvar_mle=sum((z-zbar).^2)/n;
% compute ensemble stats (sampling-pdf means)
zbar_avg=sum(zbar)/N, zvar_mle_avg=sum(zvar_mle)/N
% compute unbiased variance
zvar_avg=zvar_mle_avg*n/(n-1)

Saída típica é como

zbar_avg     =  1.4442e-04
zvar_mle_avg =  0.49988
zvar_avg     =  0.99977

confirmando que

E[z¯](z¯)¯μ=0E[s2](s2)¯σ2=1E[σ2^](σ2^)¯n1nσ2=12

Atualização 2: Nota sobre a natureza fundamentalmente "algébrica" ​​da imparcialidade.

Na demonstração numérica acima, o código aproxima a expectativa verdadeira usando uma média de conjunto com N = 10 6 repetições do experimento (ou seja, cada uma é uma amostra de tamanho n = 2 ). Mesmo com esse grande número, os resultados típicos citados acima estão longe de serem exatos.E[]N=106n=2

Para demonstrar numericamente que os estimadores são realmente imparciais, podemos usar um truque simples para aproximar o caso : basta adicionar a seguinte linha ao códigoN

% optional: "whiten" data (ensure exact ensemble stats)
[U,S,V]=svd(z-mean(z,2),'econ'); z=sqrt(N)*U*V';

(depois de "gerar # aleatórios normais-padrão" e antes de "calcular estatísticas de amostra")

Com essa mudança simples, mesmo executando o código com obtém resultados comoN=10

zbar_avg     =  1.1102e-17
zvar_mle_avg =  0.50000
zvar_avg     =  1.00000

3
@amoeba Bem, eu como meu chapéu. Coloquei os valores de SD em cada linha ao quadrado e calculei a média deles e eles são imparciais (0,9994), enquanto os próprios valores de SD não. Significando que você e GeoMatt22 estão corretos, e eu estou errado.
Carl

2
@Carl: Geralmente é verdade que transformar um estimador imparcial de um parâmetro não fornece uma estimativa imparcial do parâmetro transformado, exceto quando a transformação é afim, após a linearidade da expectativa. Então, em que escala a imparcialidade é importante para você?
Scortchi - Restabelece Monica

4
Carl: Peço desculpas se você acha que minha resposta foi ortogonal à sua pergunta. O objetivo era fornecer uma explicação plausível de Q: "por que uma fórmula de desvio padrão tendenciosa é normalmente usada?" R: "simplesmente porque o estimador de variância associado é imparcial, versus qualquer justificação matemática / estatística real ". Quanto ao seu comentário, normalmente "imparcial" descreve um estimador cujo valor esperado está correto independentemente do tamanho da amostra. Se for imparcial apenas no limite do tamanho infinito da amostra, normalmente seria chamado de " consistente ".
GeoMatt22

3
(+1) Boa resposta. Pequena advertência: A passagem da Wikipedia sobre consistência citada nesta resposta é um pouco confusa e a declaração entre parênteses feita a ela relacionada é potencialmente enganosa. "Consistência" e "imparcialidade assintótica" são, em certo sentido, propriedades ortogonais de um estimador. Para um pouco mais sobre esse ponto, consulte o tópico de comentários desta resposta .
cardeal

3
+1, mas acho que @Scortchi faz um ponto realmente importante em sua resposta que não é mencionada na sua: a saber, mesmo para a população gaussiana, a estimativa imparcial de tem um erro esperado mais alto do que a estimativa tendenciosa padrão de σ (devido à alta variância do primeiro). Este é um argumento forte a favor de não usar um estimador imparcial, mesmo que se saiba que a distribuição subjacente é gaussiana. σσ
ameba diz Restabelecer Monica

15

O desvio padrão da amostra é completo e suficiente paraσ, demodo que o conjunto de estimadores imparciais deσk,dado porS=(XX¯)2n1σσk

(n1)k22k2Γ(n12)Γ(n+k12)Sk=Skck

(Consulte Por que o desvio padrão da amostra é um estimador enviesado de ?σ ) São, pelo teorema de Lehmann – Scheffé, UMVUE. Consistente, embora inclinado, estimadores de pode também ser formado comoσk

σ~jk=(Sjcj)kj

(the unbiased estimators being specified when j=k). The bias of each is given by

Eσ~jkσk=(ckcjkj1)σk

& its variance by

Varσ~jk=Eσ~j2k(Eσ~jk)2=c2kck2cj2kjσ2k

For the two estimators of σ you've considered, σ~11=Sc1 & σ~21=S, the lack of bias of σ~1 is more than offset by its larger variance when compared to σ~2:

Eσ~1σ=0Eσ~2σ=(c11)σVarσ~1=Eσ~12(Eσ~11)2=c2c12c12σ2=(1c121)σ2Varσ~2=Eσ~12(Eσ~2)2=c2c12c2σ2=(1c12)σ2
(Note that c2=1, as S2 is already an unbiased estimator of σ2.)

Plot showing contributions of bias & variance to MSE at sample sizes from one to 20 for the two estimators

The mean square error of akSk as an estimator of σ2 is given by

(EakSkσk)2+E(akSk)2(EakSk)2=[(akck1)2+ak2c2kak2ck2]σ2k=(ak2c2k2akck+1)σ2k

& therefore minimized when

ak=ckc2k

, allowing the definition of another set of estimators of potential interest:

σ^jk=(cjSjc2j)kj

Curiously, σ^11=c1S, so the same constant that divides S to remove bias multiplies S to reduce MSE. Anyway, these are the uniformly minimum variance location-invariant & scale-equivariant estimators of σk (you don't want your estimate to change at all if you measure in kelvins rather than degrees Celsius, & you want it to change by a factor of (95)k if you measure in Fahrenheit).

None of the above has any bearing on the construction of hypothesis tests or confidence intervals (see e.g. Why does this excerpt say that unbiased estimation of standard deviation usually isn't relevant?). And σ~jk & σ^jk exhaust neither estimators nor parameter scales of potential interest—consider the maximum-likelihood estimator n1nS, or the median-unbiased estimator n1χn12(0.5)S; or the geometric standard deviation of a lognormal distribution eσ. It may be worth showing a few more-or-less popular estimates made from a small sample (n=2) together with the upper & lower bounds, (n1)s2χn12(α) & (n1)s2χn12(1α), of the equal-tailed confidence interval having coverage 1α:

confidence distribution for $\sigma$ showing estimates

The span between the most divergent estimates is negligible in comparison with the width of any confidence interval having decent coverage. (The 95% C.I., for instance, is (0.45s,31.9s).) There's no sense in being finicky about the properties of a point estimator unless you're prepared to be fairly explicit about what you want you want to use it for—most explicitly you can define a custom loss function for a particular application. A reason you might prefer an exactly (or almost) unbiased estimator is that you're going to use it in subsequent calculations during which you don't want bias to accumulate: your illustration of averaging biased estimates of standard deviation is a simple example of such (a more complex example might be using them as a response in a linear regression). In principle an all-encompassing model should obviate the need for unbiased estimates as an intermediate step, but might be considerably more tricky to specify & fit.

† The value of σ that makes the observed data most probable has an appeal as an estimate independent of consideration of its sampling distribution.


7

Q2: Would someone please explain to me why we are using SD anyway as it is clearly biased and misleading?

This came up as an aside in comments, but I think it bears repeating because it's the crux of the answer:

The sample variance formula is unbiased, and variances are additive. So if you expect to do any (affine) transformations, this is a serious statistical reason why you should insist on a "nice" variance estimator over a "nice" SD estimator.

In an ideal world, they'd be equivalent. But that's not true in this universe. You have to choose one, so you might as well choose the one that lets you combine information down the road.

Comparing two sample means? The variance of their difference is sum of their variances.
Doing a linear contrast with several terms? Get its variance by taking a linear combination of their variances.
Looking at regression line fits? Get their variance using the variance-covariance matrix of your estimated beta coefficients.
Using F-tests, or t-tests, or t-based confidence intervals? The F-test calls for variances directly; and the t-test is exactly equivalent to the square root of an F-test.

In each of these common scenarios, if you start with unbiased variances, you'll remain unbiased all the way (unless your final step converts to SDs for reporting).
Meanwhile, if you'd started with unbiased SDs, neither your intermediate steps nor the final outcome would be unbiased anyway.


Variance is not a distance measurement, and standard deviation is. Yes, vector distances add by squares, but the primary measurement is distance. The question was what would you use corrected distance for, and not why should we ignore distance as if it did not exist.
Carl

Well, I guess I'm arguing that "the primary measurement is distance" isn't necessarily true. 1) Do you have a method to work with unbiased variances; combine them; take the final resulting variance; and rescale its sqrt to get an unbiased SD? Great, then do that. If not... 2) What are you going to do with a SD from a tiny sample? Report it on its own? Better to just plot the datapoints directly, not summarize their spread. And how will people interpret it, other than as an input to SEs and thus CIs? It's meaningful as an input to CIs, but then I'd prefer the t-based CI (with usual SD).
civilstat

I do no think that many clinical studies or commercial software programs with n<25 would use standard error of the mean calculated from small sample corrected standard deviation leading to a false impression of how small those errors are. I think even that one issue, even if that is the only one, should be ignored.
Carl

"so you might as well choose the one that lets you combine information down the road" and "the primary measurement is distance" isn't necessarily true. Farmer Jo's house is 640 acres down the road? One uses the appropriate measurement correctly for each and every situation, or one has a higher tolerance for false witness than I. My only question here is when to use what, and the answer to it is not "never."
Carl

1

This post is in outline form.

(1) Taking a square root is not an affine transformation (Credit @Scortchi.)

(2) var(s)=E(s2)E(s)2, thus E(s)=E(s2)var(s)var(s)

(3) var(s)=Σi=1n(xix¯)2n1, whereas E(s)=Γ(n12)Γ(n2)Σi=1n(xix¯)22Σi=1n(xix¯)2n1=var(s)

(4) Thus, we cannot substitute var(s) for E(s), for n small, as square root is not affine.

(5) var(s) and E(s) are unbiased (Credit @GeoMatt22 and @Macro, respectively).

(6) For non-normal distributions x¯ is sometimes (a) undefined (e.g., Cauchy, Pareto with small α) and (b) not UMVUE (e.g., Cauchy ( Student's-t with df=1), Pareto, Uniform, beta). Even more commonly, variance may be undefined, e.g. Student's-t with 1df2. Then one can state that var(s) is not UMVUE for the general case distribution. Thus, there is then no special onus to introducing an approximate small number correction for standard deviation, which likely has similar limitations to var(s), but is additionally less biased, σ^=1n1.514γ2i=1n(xix¯)2 ,

where γ2 is excess kurtosis. In a similar vein, when examining a normal squared distribution (a Chi-squared with df=1 transform), we might be tempted to take its square root and use the resulting normal distribution properties. That is, in general, the normal distribution can result from transformations of other distributions and it may be expedient to examine the properties of that normal distribution such that the limitation of small number correction to the normal case is not so severe a restriction as one might at first assume.

For the normal distribution case:

A1: By Lehmann-Scheffe theorem var(s) and E(s) are UMVUE (Credit @Scortchi).

A2: (Edited to adjust for comments below.) For n25, we should use E(s) for standard deviation, standard error, confidence intervals of the mean and of the distribution, and optionally for z-statistics. For t-testing we would not use the unbiased estimator as X¯μvar(n)/n itself is Student's-t distributed with n1 degrees of freedom (Credit @whuber and @GeoMatt22). For z-statistics, σ is usually approximated using n large for which E(s)var(n) is small, but for which E(s) appears to be more mathematically appropriate (Credit @whuber and @GeoMatt22).


2
A2 is incorrect: following that prescription would produce demonstrably invalid tests. As I commented to the question, perhaps too subtly: consult any theoretical account of a classical test, such as the t-test, to see why a bias correction is irrelevant.
whuber

2
There's a strong meta-argument showing why bias correction for statistical tests is a red herring: if it were incorrect not to include a bias-correction factor, then that factor would already be included in standard tables of the Student t distribution, F distribution, etc. To put it another way: if I'm wrong about this, then everybody has been wrong about statistical testing for the last century.
whuber

1
Am I the only one who's baffled by the notation here? Why use E(s) to stand for Γ(n12)Γ(n2)Σi=1n(xix¯)22, the unbiased estimate of standard deviation? What's s?
Scortchi - Reinstate Monica

2
@Scortchi the notation apparently came about as an attempt to inherit that used in the linked post. There s is the sample variance, and E(s) is the expected value of s for a Gaussian sample. In this question, "E(s)" was co-opted to be a new estimator derived from the original post (i.e. something like σ^s/α where αE[s]/σ). If we arrive at a satisfactory answer for this question, probably a cleanup of the question & answer notation would be warranted :)
GeoMatt22

2
The z-test assumes the denominator is an accurate estimate of σ. It's known to be an approximation that is only asymptotically correct. If you want to correct it, don't use the bias of the SD estimator--just use a t-test. That's what the t-test was invented for.
whuber

0

I want to add the Bayesian answer to this discussion. Just because your assumption is that the data is generated according to some normal with unknown mean and variance, that doesn't mean that you should summarize your data using a mean and a variance. This whole problem can be avoided if you draw the model, which will have a posterior predictive that is a three parameter noncentral scaled student's T distribution. The three parameters are the total of the samples, total of the squared samples, and the number of samples. (Or any bijective map of these.)

Incidentally, I like civilstat's answer because it highlights our desire to combine information. The three sufficient statistics above are even better than the two given in the question (or by civilstat's answer). Two sets of these statistics can easily be combined, and they give the best posterior predictive given the assumption of normality.


How then does one calculate an unbiased standard error of the mean from those three sufficient statistics?
Carl

@carl You can easily calculate it since you have the number of samples n, you can multiply the uncorrected sample variance by nn1. However, you really don't want to do that. That's tantamount to turning your three parameters into a best fit normal distribution to your limited data. It's a lot better to use your three parameters to fit the true posterior predictive: the noncentral scaled T distribution. All questions you might have (percentiles, etc.) are better answered by this T distribution. In fact, T tests are just common sense questions asked of this distribution.
Neil G

How can one then generate a true normal distribution RV from Monte Carlo simulations(s) and recover that true distribution using only Student's-t distribution parameters? Am I missing something here?
Carl

@Carl The sufficient statistics I described were the mean, second moment, and number of samples. Your MLE of the original normal are the mean and variance (which is equal to the second moment minus the squared mean). The number of samples is useful when you want to make predictions about future observations (for which you need the posterior predictive distribution).
Neil G

Though a Bayesian perspective is a welcome addition, I find this a little hard to follow: I'd have expected a discussion of constructing a point estimate from the posterior density of σ. It seems you're rather questioning the need for a point estimate: this is something well worth bringing up, but not uniquely Bayesian. (BTW you also need to explain the priors.)
Scortchi - Reinstate Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.