Cálculo do tamanho da amostra necessário, estimativa da precisão da variância?

17

fundo

Eu tenho uma variável com uma distribuição desconhecida.

Eu tenho 500 amostras, mas gostaria de demonstrar a precisão com a qual posso calcular a variação, por exemplo, argumentar que um tamanho de amostra de 500 é suficiente. Também estou interessado em saber o tamanho mínimo da amostra que seria necessário para estimar a variação com uma precisão de . $X\%$

Questões

Como posso calcular

a precisão da minha estimativa da variância, dado um tamanho de amostra de ? de ? $n=500$ $n=N$
Como posso calcular o número mínimo de amostras necessárias para estimar a variação com uma precisão de ? $X$

Exemplo

Figura 1 estimativa de densidade do parâmetro com base nas 500 amostras.

insira a descrição da imagem aqui

Figura 2 Aqui está um gráfico do tamanho da amostra no eixo x vs. estimativas de variação no eixo y que calculei usando subamostras da amostra de 500. A idéia é que as estimativas convergam para a variação verdadeira à medida que n aumenta .

No entanto, as estimativas não são válidas independentemente, uma vez que as amostras usadas para estimar a variação para não são independentes uma da outra ou das amostras usadas para calcular a variação em $n \in [10,125,250,500]$ $n\in [20,40,80]$

insira a descrição da imagem aqui

— Abe
fonte

Lembre-se de que, se um componente de sua distribuição desconhecida for uma distribuição Cauchy, a variação será indefinida.

— Mike Anderson

@ Mike Ou, de fato, um número infinito de outras distribuições.

— Glen_b -Reinstate Monica

10

Para as variáveis aleatórias iid , o estimador imparcial para a variância (aquela com denominador ) tem variância: $X_1, \dotsc, X_n$ $s^2$ $n-1$

V uma r (s^{2}) = σ^{4} (\frac{2}{n - 1} + \frac{κ}{n})

$\mathrm{Var}(s^2) = \sigma^4 \left(\frac{2}{n-1} + \frac{\kappa}{n}\right)$

onde é o excesso de curtose da distribuição (referência: Wikipedia ). Então agora você precisa estimar a curtose da sua distribuição também. Você pode usar uma quantidade algumas vezes descrita como (também da Wikipedia ): $\kappa$ $\gamma_2$

γ_{2} = \frac{μ_{4}}{σ_{4}} - 3

$\gamma_2 = \frac{\mu_4}{\sigma_4} - 3$

Eu suporia que, se você usar como uma estimativa para e como uma estimativa para , obterá uma estimativa razoável para , embora não haja garantia de que seja imparcial. Veja se ele combina com a variação entre os subconjuntos dos seus 500 pontos de dados razoavelmente e se não se preocupa mais com isso :) $s$ $\sigma$ $\gamma_2$ $\kappa$ $\mathrm{Var}(s^2)$

— Erik P.
fonte

você tem uma referência de livro didático para o estimador imparcial de variância? Não sei para onde ir da Wikipedia para mais contexto.

— Abe

Não tenho meu texto padrão Rice comigo aqui, então não posso verificar o número da página para você, mas tenho certeza de que está lá. A Wikipedia sugere que ele também deva ser mencionado em: Montgomery, DC e Runger, GC: Estatística Aplicada e Probabilidade para Engenheiros , página 201. John Wiley & Sons, Nova York, 1994.

— Erik P.

Obrigado por sua ajuda com isso. Essa resposta foi muito útil e informativa para quantificar a incerteza de variância - apliquei a equação cerca de 10 vezes no último dia. calcular

é fácil com a biblioteca:

k a p p a

$kappa$ momentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)

— Abe

alguma chance de encontrar o número da página no texto Rice? Não encontro em Casella e Berger. Uma referência primária seria ainda melhor se você souber. A página da Wikipedia é notavelmente não referenciada.

— Abe

Hummm ... parece que Rice também não tem a fórmula. Vou ficar de olho nisso, mas neste momento não tenho nenhuma referência.

— Erik P.

15

Aprender uma variação é difícil.

É preciso um número (talvez surpreendentemente) grande de amostras para estimar bem uma variação em muitos casos. Abaixo, mostrarei o desenvolvimento do caso "canônico" de uma amostra normal de iid.

Suponha que , são variáveis aleatórias independentes de . Buscamos um intervalo de confiança de para a variação, de modo que a largura do intervalo seja , ou seja, a largura seja da estimativa pontual. Por exemplo, se , então a largura da IC é metade do valor da estimativa pontual, por exemplo, se $Y_i$ $i=1,\ldots,n$ $\mathcal{N}(\mu, \sigma^2)$ $100(1-\alpha)\%$ $\rho s^2$ $100\rho \%$ $\rho = 1/2$ , então o IC seria algo como $s^2 = 10$ , com uma largura de 5. Observe também a assimetria em torno da estimativa pontual. ( é o estimador imparcial da variação). $(8,\,13)$ $s^2$

O intervalo de confiança "(em vez de" a ") para é $s^2$ onde

\frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (1 - α / 2)}} \leq σ^{2} \leq \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (α / 2)}},

$\frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \leq \sigma^2 \leq \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} \>,$

é oquantil

da distribuição qui-quadrado com

graus de liberdade. (Isso decorre do fato de que

é uma quantidade essencial em um cenário gaussiano.)

χ_{(n - 1)}^{2 β}

$\chi_{(n-1)}^{2\;\beta}$

β

$\beta$

n - 1

$n-1$

(n - 1) s^{2} / σ^{2}

$(n-1)s^2/\sigma^2$

Queremos minimizar a largura para que então resta resolver modo que

eu (n) = \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (α / 2)}} - \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (1 - α / 2)}} < ρ s^{2},

$L(n) = \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} < \rho s^2 \>,$

n

$n$

(n - 1) (\frac{1}{χ_{(n - 1)}^{2 (α / 2)}} - \frac{1}{χ_{(n - 1)}^{2 (1 - α / 2)}}) < ρ .

$(n-1) \left(\frac{1}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{1}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \right) < \rho .$

Para o caso de um intervalo de confiança de 99%, temos para e para . Neste último caso produz um intervalo que é ( ainda! ) 10% maior que a estimativa pontual da variância. $n = 65$ $\rho = 1$ $n = 5321$ $\rho = 0.1$

Se o seu nível de confiança escolhido for inferior a 99%, o mesmo intervalo de largura será obtido para um valor mais baixo de . Mas, ainda pode ser maior do que você imaginaria. $n$ $n$

Um gráfico do tamanho da amostra versus a largura proporcional mostra algo que parece assintoticamente linear em uma escala log-log; em outras palavras, um relacionamento semelhante à lei do poder. Podemos estimar o poder dessa relação poder-lei (grosseiramente) como $n$ $\rho$

\hat{α} \approx \frac{registro 0,1 - registro 1}{registro 5321 - registro 65} = \frac{- registro 10}{registro \frac{5231}{65}} \approx - 0,525,

$\hat{\alpha} \approx \frac{\log 0.1 - \log 1}{\log 5321 - \log 65} = \frac{-\log 10}{\log \frac{5231}{65}} \approx -0.525 ,$

que é, infelizmente, decididamente lento!

Esse é um caso "canônico" para lhe dar uma idéia de como proceder para o cálculo. Com base em seus gráficos, seus dados não parecem particularmente normais; em particular, existe o que parece ser uma distorção perceptível.

Mas isso deve lhe dar uma idéia aproximada do que esperar. Observe que, para responder à sua segunda pergunta acima, é necessário fixar primeiro um nível de confiança, definido em 99% no desenvolvimento acima para fins de demonstração.

— cardeal
fonte

n | ρ

$n|\rho$

r h o

$rho$

n = 65

$n=65$

ρ < 1

$\rho<1$

ρ

$\rho$

1 \times s^{2}

$1\times s^2$

ρ

$\rho$

1 %

$1\%$

s^{2}

$s^2$

@ Abe, atualizado e, com sorte, esclarecido no processo. Houve um erro de digitação particularmente ruim na versão anterior. Me desculpe por isso.

— cardinal

uma resposta muito boa, mas eu escolhi a do @Erik porque é mais aplicável ao meu problema (como meu parâmetro não é normalmente distribuído).

— Abe

@ Abe: Não é um problema. É para isso que serve a marca de seleção. Minha resposta foi (é) pretendida ser ilustrativa, mais do que qualquer coisa. Do que eu posso dizer, é que ainda parece ser o único que endereços tanto de suas perguntas, e será (assintoticamente) corrigir mesmo no cenário que descreve Erik. (+1 para ele há mais de um ano.) :)

— cardeal

s (s_{s})

$s(s_{s})$

s [l c l, u c l]

$s[lcl,ucl]$

1

Eu focaria no SD e não na variância, pois ele está em uma escala que é mais facilmente interpretada.

Às vezes, as pessoas observam intervalos de confiança para DSs ou variações, mas o foco geralmente está nos meios.

$s^2/\sigma^2$ $\sigma^2$ $\sigma$ $\sigma^2$

— Karl
fonte

(Esta resposta veio aqui depois de uma pergunta duplicado, enquadrado um pouco diferente, foi incorporada.)

— whuber

1

A solução a seguir foi dada por Greenwood e Sandomire em um artigo da JASA de 1950.

$X_1,\dots,X_n$ $\mathrm{N}(\mu,\sigma^2)$ $\sigma$

S = \sqrt{\sum_{Eu = 1}^{n} \frac{(X_{Eu} - \bar{X})^{2}}{n - 1}},

$S=\sqrt{\sum_{i=1}^n\frac{(X_i-\bar{X})^2}{n-1}},$

S

$S$

σ

$\sigma$

0 < u < 1

$0<u<1$

Pr {S < (1 - você) \cdot σ} = uma e Pr {S > (1 + você) \cdot σ} = b,

$\Pr\{S<(1-u)\cdot\sigma\}=a \quad\text{and}\quad \Pr\{S>(1+u)\cdot\sigma\}=b,$

γ = 1 - a - b

$\gamma=1-a-b$

Pr {\frac{(n - 1) S^{2}}{σ^{2}} < (n - 1) (1 - você)^{2}} = uma

$\Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} < (n-1)(1-u)^2\right\} = a$

Pr {\frac{(n - 1) S^{2}}{σ^{2}} > (n - 1) (1 + você)^{2}} = b .

$\Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} > (n-1)(1+u)^2\right\} = b.$

(n - 1) S^{2} / σ^{2}

$(n-1)S^2/\sigma^2$

χ_{n - 1}^{2}

$\chi^2_{n-1}$

γ = F_{χ_{(n - 1)}^{2}} ((n - 1) (1 + você)^{2}) - F_{χ_{(n - 1)}^{2}} ((n - 1) (1 - você)^{2}),

$\gamma = F_{\chi^2_{(n-1)}}((n-1)(1+u)^2) - F_{\chi^2_{(n-1)}}((n-1)(1-u)^2),$

$n$ $\gamma$ $u$

R código.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

$u=10\%$ $\gamma=95\%$

Sample size n = 193

— zen
fonte