Por que, em média, cada amostra de bootstrap contém aproximadamente dois terços das observações?


42

I ter executado através da afirmação de que cada amostra de bootstrap (ou árvore ensacado) irá conter, em média, cerca de 2/3 das observações.

Eu entendo que a chance de não ser seleccionado em qualquer um dos n retira n amostras com reposição é (11/n)n , que funciona a cerca de 1/3 chance de não ser selecionado.

O que é uma explicação matemática para porque esta fórmula sempre dá 1/3 ?


10
Acredito que essa seja a origem do .632 na regra 632+ do bootstrap.
gung - Restabelece Monica

Respostas:


29

e - 1 = 1 / e 1 / 3limn(11/n)n=e1
e1=1/e1/3

Não funciona em muito pequeno - por exemplo, em , . Passa em , passa em e por . Depois de ir além de , é uma aproximação melhor que .n = 2 ( 1 - 1 / n ) n = 1nn=2 1(11/n)n=14 n=60,35n=110,366n=99n=11113n=60.35n=110.366n=99n=11 11e13

insira a descrição da imagem aqui

A linha tracejada cinza está em ; a linha vermelha e cinza está em . 1131e

Em vez de mostrar uma derivação formal (que pode ser facilmente encontrada), vou descrever (que é um argumento intuitivo e ondulado) do porquê de um resultado (um pouco) mais geral:

ex=limn(1+x/n)n

(Muitas pessoas consideram que esta é a definição de , mas você pode provar isso a partir de resultados mais simples, como definir como .)exp(x)elimn(1+1/n)n

Fato 1: Isso resulta dos resultados básicos sobre potências e exponenciaçãoexp(x/n)n=exp(x)

Fato 2: Quando é grande, Isso segue a expansão da série para .nexp(x/n)1+x/nex

(Posso fornecer argumentos mais completos para cada um deles, mas presumo que você já os conheça)

Substitua (2) em (1). Feito. (Para que isso funcione como um argumento mais formal, levaria algum trabalho, porque você teria que mostrar que os termos restantes no Fato 2 não se tornam grandes o suficiente para causar um problema quando levados ao poder . Mas isso é intuição em vez de prova formal.)n

[Como alternativa, basta levar a série Taylor para na primeira ordem. Uma segunda abordagem fácil é pegar a expansão binomial de e pegar o limite termo a termo, mostrando que ele fornece os termos da série para .]exp(x/n)(1+x/n)nexp(x/n)

Portanto, se , substitua .ex=limn(1+x/n)nx=1

Imediatamente, temos o resultado no topo desta resposta,limn(11/n)n=e1


Como Gung aponta nos comentários, o resultado na sua pergunta é a origem da regra de inicialização 632

por exemplo, veja

Efron, B. e R. Tibshirani (1997),
"Melhorias na validação cruzada: o método .632+ Bootstrap", "
Journal of the American Statistical Association vol. 92, n. 438. (junho), pp. 548-560


41

Mais precisamente, cada amostra de bootstrap (ou árvore ensacada) conterá da amostra.11e0.632

Vamos ver como o bootstrap funciona. Temos uma amostra original com itens. Desenhamos itens com substituição deste conjunto original até termos outro conjunto de tamanho .x1,x2,xnnn

A partir disso, segue-se que a probabilidade de escolher qualquer item (digamos, ) no primeiro sorteio é . Portanto, a probabilidade de não escolher esse item é . Isso é apenas para o primeiro sorteio; há um total de draws, todos independentes, portanto a probabilidade de nunca escolher esse item em qualquer um dos draws é .x11n11nn(11n)n

Agora, vamos pensar no que acontece quando fica cada vez maior. Podemos pegar o limite conforme avança para o infinito, usando os truques de cálculo comuns (ou Wolfram Alpha): nn

limn(11n)n=1e0.368

Essa é a probabilidade de um item não ser escolhido. Subtraia de um para encontrar a probabilidade do item ser escolhido, o que fornece 0,632.


5

A amostragem com substituição pode ser modelada como uma sequência de testes binomiais em que "sucesso" é uma instância que está sendo selecionada. Para um conjunto de dados original de instâncias, a probabilidade de "sucesso" é e a probabilidade de "falha" é . Para um tamanho de amostra de , as chances de selecionar uma instância exatamente vezes são dadas pela distribuição binomial:n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

No caso específico de uma amostra de autoinicialização, o tamanho da amostra é igual ao número de instâncias . Deixando aproximar do infinito, obtemos:n nbnn

limn(1n)x(n1n)nx(nx)=1ex!

Se nosso conjunto de dados original for grande, podemos usar esta fórmula para calcular a probabilidade de uma instância ser selecionada exatamente vezes em uma amostra de inicialização. Para , a probabilidade é , ou aproximadamente . A probabilidade de uma instância ser amostrada pelo menos uma vez é, portanto, .x = 0 1 / e 0,368 1 - 0,368 = 0,632xx=01/e0.36810.368=0.632

Escusado será dizer que deduzi meticulosamente isso usando papel e caneta e nem sequer considerei usar o Wolfram Alpha.


4

Apenas adicionando à resposta do @ retsreg, isso também pode ser demonstrado facilmente com a simulação numérica no R:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1

Isso pode ser facilmente visto contando. Quantas amostras totais possíveis? n ^ n. Quantos NÃO contêm um valor específico? (n-1) ^ n. Probabilidade de uma amostra não ter um valor específico - (1-1 / n) ^ n, que é cerca de 1/3 no limite.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.