Por que o bootstrapping é útil?


13

Se tudo o que você está fazendo é re-amostragem da distribuição empírica, por que não apenas estudar a distribuição empírica? Por exemplo, em vez de estudar a variabilidade por amostragem repetida, por que não quantificar a variabilidade a partir da distribuição empírica?


6
" (Nesse sentido,) a distribuição de bootstrap representa uma distribuição posterior não paramétrica e não informativa (aproximada) para nosso parâmetro. Mas essa distribuição de bootstrap é obtida sem dor - sem a necessidade de especificar formalmente uma prévia e sem a amostragem da distribuição posterior. podemos pensar na distribuição de bootstrap como um Bayes posterior do "homem pobre". "Hastie et al. Os elementos do aprendizado estatístico ". Seção 8.4.
usεr11852 diz Reinstate Monic

8
Como quantificaríamos a incerteza de nossas estimativas a partir da distribuição empírica?
usεr11852 diz Reinstate Monic

2
"Sob condições de regularidade moderada, o bootstrap produz uma aproximação à distribuição de um estimador ou estatística de teste que é pelo menos tão precisa quanto a aproximação obtida da teoria assintótica de primeira ordem". unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf .
jbowman

10
Você está discutindo, não tentando entender. Acredite, você não chegou à conclusão de que o bootstrap é inútil contra o de muitos milhares de estatísticos em quatro ou mais décadas. Você não leu a citação com atenção. Acho que você não conseguiu entender o papel principal que a aleatoriedade desempenha nas estatísticas. Declarações como "Por que se preocupar !!" em relação a "obter uma distribuição de são ... incomuns, para dizer o mínimo. Se você não acha importante entender a distribuição de suas estimativas, pode considerar por que o campo de estatística existe em tudo, e re-pensar isso.T(X)
jbowman

4
@ztyh Você diz "se você mapear cada amostra para T ( X ), obtém uma distribuição de T ( X ) ". Talvez você devesse pensar nisso, como mapearia um único ponto X i para T ( X ) = ˉ X ? Ou qualquer função T ( X 1 , X 2XT(X)T(X)XiT(X)=X¯ para esse assunto. T(X1,X2,Xn)
knrumsey

Respostas:


18

O bootstrapping (ou outra reamostragem) é um método experimental para estimar a distribuição de uma estatística.

É um método muito direto e fácil (significa apenas que você calcula com muitas variantes aleatórias dos dados da amostra para obter, uma estimativa da distribuição desejada da estatística).

Você provavelmente o usa quando a expressão 'teórica / analítica' é muito difícil de obter / calcular (ou como aksakal diz que às vezes são desconhecidas).

  • Exemplo 1: Se você faz uma análise pca e deseja comparar os resultados com 'estimativas do desvio dos valores próprios', dada a hipótese de que não há correlação nas variáveis.

    Você pode embaralhar os dados várias vezes e recalcular os valores próprios do pca para obter uma distribuição (com base em testes aleatórios com os dados da amostra) para os valores próprios.

    Observe que as práticas atuais estão contemplando um scree plot e aplicam regras de ouro para 'decidir' se um determinado valor próprio é significativo / importante ou não.

  • Exemplo 2: Você fez uma regressão não linear y ~ f (x) fornecendo uma estimativa de vários parâmetros para a função f. Agora você deseja saber o erro padrão para esses parâmetros.

    Um simples olhar para os resíduos e álgebra linear, como no OLS, não é possível aqui. No entanto, uma maneira fácil é calcular a mesma regressão muitas vezes com os resíduos / erros embaralhados para ter uma idéia de como os parâmetros variariam (dada a distribuição do termo de erro que pode ser modelada pelos resíduos observados).


Escrito por StackExchangeStrike


2
Eu acho que o seu exemplo não é um bootstrap. É apenas uma amostra de uma distribuição nula conhecida. O Bootstrap é o local onde você tem uma amostra e faz a amostragem repetidamente novamente a partir dessa amostra.
ztyh

3
Na sua pergunta, você imagina calcular a variação de uma amostra, o que é realmente simples e não requer bootstrap. No meu exemplo, falo sobre uma situação em que temos um valor derivado da amostra. Então, não podemos mais simplesmente calcular uma variação, ainda queremos saber como ela varia. Ao embaralhar os dados várias vezes e recalcular os autovalores do pca, é possível obter esses dados de distribuição (aleatórios) que seguem a distribuição da sua amostra. Se não me engano, isso é chamado de inicialização.
Sextus Empiricus

Ok, eu vejo onde eu estava entendendo mal as coisas. Seu exemplo faz sentido. Obrigado.
ztyh

8

O principal é que o bootstrap não é realmente sobre descobrir os recursos da distribuição do dados , mas sim descobrir características de um estimador aplicado aos dados.

Algo como a função de distribuição empírica fornecerá uma estimativa bastante boa do CDF a partir do qual os dados vieram ... mas, ao isolar, não diz essencialmente nada sobre a confiabilidade dos estimadores que construímos a partir desses dados. Esta é a pergunta respondida usando o bootstrap.


1
Usar o bootstrap (não paramétrico) para encontrar "a distribuição dos dados" seria uma risada: ela simplesmente cria a função de distribuição empírica, que é exatamente o conjunto de dados com o qual o analista começou. Me lembra a álgebra da faculdade quando eu "resolvia X" e encontrava "X = X".
Adamo

3

Se você sabe exatamente qual é a distribuição subjacente, não precisa estudá-la. Às vezes, nas ciências naturais, você sabe exatamente a distribuição.

Se você conhece o tipo da distribuição, é necessário apenas estimar seus parâmetros e estudá-lo no sentido que você quis dizer. Por exemplo, em algum momento você sabe a priori que a distribuição subjacente é normal. Em alguns casos, você sabe até o que isso significa. Portanto, para o normal, a única coisa que resta a descobrir é o desvio padrão. Você obtém o desvio padrão da amostra e, voila, obtém a distribuição para estudar.

Se você não sabe qual é a distribuição, mas acha que ela é uma das várias na lista, tente ajustar essa distribuição aos dados e escolher a que melhor se encaixa. ENTÃO você estuda essa distribuição.

Finalmente, muitas vezes você não sabe o tipo de distribuição com a qual está lidando. E você não tem um motivo para acreditar que pertence a uma das 20 distribuições nas quais o R pode ajustar seus dados. O que você vai fazer? Ok, você olha para desvios médios e padrão, bom. Mas e se for muito assimétrico? E se a curtose for muito grande? e assim por diante. Você realmente precisa conhecer todos os momentos da distribuição para conhecer e estudá-lo. Portanto, nesse caso, a inicialização não paramétrica é útil. Você não pressupõe muita amostra simples e estuda seus momentos e outras propriedades.

Embora a inicialização não paramétrica não seja uma ferramenta mágica, ela tem problemas. Por exemplo, pode ser tendencioso. Eu acho que o bootstrapping paramétrico é imparcial


1
Acho que mesmo que você não soubesse a verdadeira distribuição, é fácil calcular muitos momentos. Então, acho que o problema não é não saber o tipo de distribuição com a qual você está lidando. Pelo contrário, é sobre que tipo de estatística você está tentando estudar. Alguma estatística pode ser difícil de calcular e só então é útil a inicialização.
ztyh

Como no comentário à pergunta para usεr11852, na verdade, tenho dúvidas sobre benefícios em relação ao computability das estatísticas, bem ...
ztyh

em(x3+x)

1
quantile foi um exemplo estúpido, eu vou lhe dar isso. tente dizer mal. na minha prática eu tenho que preverxz ou funções ainda mais complexas f(x,z) Onde x,zsão de uma distribuição conjunta desconhecida. Preciso obter propriedades da previsão final. tente isso com momentos. com o bootstrapping é fácil.
Aksakal quase certamente binário

1
Como sempre complicado f talvez, tudo o que você precisa fazer é mapear as amostras de x e z para f(x,z). Em seguida, estude as amostras mapeadas. Se você pode usar inicialização, então isso significa que você pode fazer isso, e isso é muito mais fácil ...
ztyh
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.