A reamostragem de autoinicialização pode ser usada para calcular um intervalo de confiança para a variação de um conjunto de dados?

Sei que se você fizer uma nova amostragem de um conjunto de dados várias vezes e calcular a média a cada vez, esses meios seguirão uma distribuição normal (pelo CLT). Portanto, você pode calcular um intervalo de confiança na média do conjunto de dados sem fazer nenhuma suposição sobre a distribuição de probabilidade do conjunto de dados.

Eu queria saber se você poderia fazer algo semelhante para a variação. Ou seja, se eu fizesse uma nova amostragem de um conjunto de dados várias vezes e calculasse a variação cada vez, essas variações seguiriam uma certa distribuição (independentemente da distribuição de probabilidade original do conjunto de dados)?

Eu sei que se esse conjunto de dados original for normal, as variações seguirão uma distribuição qui-quadrado. Mas e se isso não for normal?

— casandra
fonte

A reamostragem de bootstrap pode ser usada para calcular um intervalo de confiança para a variação de um conjunto de dados?

Sim, assim como em muitas outras estatísticas.

Sei que se você fizer uma nova amostragem de um conjunto de dados várias vezes e calcular a média a cada vez, esses meios seguirão uma distribuição normal (pelo CLT).

Nem sempre é o caso de que, se você inicializar um meio, o meio de inicialização seguirá uma distribuição normal, mesmo para distribuições às quais o CLT se aplica.

$n=100$

insira a descrição da imagem aqui

Não é remotamente normal.

A amostra original consiste em noventa e sete valores '0' e um '1', um '2' e um '100'.

Aqui está o código (R) que corri para gerar o gráfico acima:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

O problema é que, neste caso, o tamanho da amostra (100) é muito pequeno para que o CLT seja aplicado com esse tipo de formato de distribuição; não importa quantas vezes a amostramos novamente.

No entanto, se o tamanho da amostra original for muito maior, a distribuição de reamostragem da amostra para algo como isso será mais normal (embora sempre discreta).

Aqui estão os ecdfs ao redefinir a amostra dos dados acima (preto) e para valores nas mesmas proporções, mas com dez vezes mais valores (vermelho; ou seja, n = 1000):

insira a descrição da imagem aqui

Como vemos, a função de distribuição ao reamostrar a amostra grande parece muito mais normal.

se eu fizesse uma nova amostragem de um conjunto de dados várias vezes e calculasse a variação cada vez, essas variações seguiriam uma certa distribuição

Não, pela mesma razão, não é necessariamente verdade para a média.

No entanto, o CLT também se aplica à variação *; é só que você não pode argumentar que o CLT se aplica à reamostragem de autoinicialização simplesmente fazendo muitas reamostragens. Se o tamanho da amostra original for suficientemente grande, isso pode (nas condições corretas) tender a tornar a distribuição de reamostragem de médias (e momentos mais altos, se existirem) relativamente próxima de uma distribuição normal (em relação à sua distribuição em amostras menores, em menos).

$s_n^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\bar x)^2$ $y_i = (x_i - \bar x)^2$ $s_n^2 = \bar y$ $y$ $s_n^2$ $s_{n-1}^2$ $s_n^2$ $s_n^2$ $s_{n-1}^2$

— Glen_b -Reinstate Monica
fonte