Perguntas sobre bootstrap paramétrico e não paramétrico

14

Estou lendo o capítulo sobre Estatísticas Frequentes do livro " Aprendizado de Máquina - Uma Perspectiva Probabilística " de Kevin Murphy . A seção no bootstrap diz:

O bootstrap é uma técnica simples de Monte Carlo para aproximar a distribuição da amostra. Isso é particularmente útil nos casos em que o estimador é uma função complexa dos parâmetros verdadeiros.

A ideia é simples. Se conhecêssemos os parâmetros verdadeiros $θ^∗$ , poderíamos gerar muitos (digamos $S$ ) conjuntos de dados falsos, cada um com tamanho , a partir da distribuição verdadeira, , para . Poderíamos então calcular nosso estimador de cada amostra, e usar a distribuição empírica das amostras resultantes como nossa estimativa da distribuição da amostra. Como é desconhecido, a idéia do bootstrap paramétrico é gerar as amostras usando . $N$ $x_i^s \sim p (·| θ^∗ )$ $s = 1 : S, i = 1 : N$ $\hat{\theta^s}=f (x^s_{1:N})$ $\theta$ $\hat{\theta}(D)$

Uma alternativa, chamada de inicialização não paramétrica , é amostrar o $x^s_i$ (com substituição) dos dados originais $D$ e depois calcular a distribuição induzida como antes. Alguns métodos para acelerar o bootstrap quando aplicados a conjuntos de dados massivos são discutidos em (Kleiner et al. 2011).

1 . O texto diz:

Se soubéssemos os parâmetros verdadeiros $\theta^*$ ..., poderíamos calcular nosso estimador de cada amostra, $\hat{\theta^s}$ ...

mas por que eu usaria o estimador de cada amostra se já conheço os parâmetros verdadeiros $\theta^*$ ?

2 . Além disso, qual é a diferença aqui entre a distribuição empírica e a distribuição amostral?
3 . Finalmente, não entendo bem a diferença entre bootstrap paramétrico e não paramétrico deste texto. Ambos inferem do conjunto de observações , mas qual é exatamente a diferença? $\theta$ $D$

bootstrap frequentist

— Amelio Vazquez-Reina
fonte

14

A resposta dada por miura não é totalmente exata, então estou respondendo a essa pergunta antiga para a posteridade:

(2) Essas são coisas muito diferentes. O cdf empírico é uma estimativa do CDF (distribuição) que gerou os dados. Precisamente, é o CDF discreta que atribui probabilidade para cada ponto de dados $1/n$ , para cada. Este estimador converge para o verdadeiro quase certamente para cada(na verdade de maneira uniforme). $\hat{F}(x) = \frac{1}{n}\sum_{i=1}^n I(X_i\leq x)$ $x$ $\hat{F}(x) \to F(x) = P(X_i\leq x)$ $x$

A distribuição amostral de uma estatística é, em vez disso, a distribuição da estatística que você esperaria ver em experimentações repetidas. Ou seja, você realiza sua experiência uma vez e coleta dados . é uma função dos seus dados: . Agora, suponha que você repita o experimento e colete dados . O recálculo de T na nova amostra fornece $T$ ${X_1,\ldots,X_n}$ $T$ $T = T(X_1,\ldots,X_n)$ ${X'_1,\ldots,X'_n}$ . Se nós coletadas 100 amostras teríamos 100 estimativas de . Estas observações de formar a distribuição de amostragem de . É uma verdadeira distribuição. À medida que o número de experimentos chega ao infinito, sua média converge para e sua variação para . $T' = T({X'_1,\ldots,X'_n})$ $T$ $T$ $T$ $E(T)$ $Var(T)$

Em geral, é claro que não experimentos repetidos como este, que só poderá ver uma instância de . Descobrir qual é a variação de em uma única observação é muito difícil se você não souber a função de probabilidade subjacente de a priori. Bootstrapping é uma forma de estimar que a distribuição amostral de por artificialmente correndo "novas experiências" sobre a qual se calculam novas instâncias de . Cada nova amostra é na verdade apenas uma amostra dos dados originais. O fato de isso fornecer mais informações do que os dados originais é misterioso e totalmente incrível. $T$ $T$ $T$ $T$ $T$

(1) Você está correto - você não faria isso. O autor está tentando motivar o bootstrap paramétrico, descrevendo-o como fazendo "o que você faria se conhecesse a distribuição", mas substituindo um estimador muito bom da função de distribuição - o cdf empírico.

Por exemplo, suponha que você saiba que sua estatística de teste é normalmente distribuída com média zero, variação um. Como você estimaria a distribuição amostral de ? Bem, como você conhece a distribuição, uma maneira boba e redundante de estimar a distribuição da amostra é usar R para gerar 10.000 variáveis aleatórias normais padrão, pegar a média e a variância da amostra e usá-las como nossas estimativas da média e variância da distribuição amostral de . $T$ $T$ $T$

Se não conhecemos a priori os parâmetros de , mas sabemos que ele é normalmente distribuído, o que podemos fazer é gerar 10.000 amostras ou mais a partir do cdf empírico, calcular em cada um deles e calcular a média da amostra e variância destes 10.000 s, e usá-las como nossas estimativas do valor esperado e variância de . Como o cdf empírico é um bom estimador do cdf verdadeiro, os parâmetros da amostra devem convergir para os parâmetros verdadeiros. Esta é a inicialização paramétrica: você posiciona um modelo na estatística que deseja estimar. O modelo é indexado por um parâmetro, por exemplo $T$ $T$ $T$ $T$ $(\mu, \sigma)$ , que você estima a partir de amostras repetidas do ecdf.

(3) O bootstrap não paramétrico nem exige que você saiba a priori que é normalmente distribuído. Em vez disso, você simplesmente extrai amostras repetidas do ecdf e calcula em cada uma. Depois de coletar aproximadamente 10.000 amostras e calcular 10.000 s, você pode plotar um histograma de suas estimativas. Esta é uma visualização da distribuição amostral de $T$ $T$ $T$ $T$ . O bootstrap não paramétrico não informa que a distribuição de amostragem é normal, ou gama, ou assim por diante, mas permite estimar a distribuição de amostragem (geralmente) da maneira mais precisa possível. Ele faz menos suposições e fornece menos informações do que o bootstrap paramétrico. É menos preciso quando a suposição paramétrica é verdadeira, mas mais precisa quando é falsa. Qual você usa em cada situação que você encontra depende inteiramente do contexto. É certo que mais pessoas estão familiarizadas com o bootstrap não paramétrico, mas frequentemente uma suposição paramétrica fraca torna um modelo completamente intratável passível de estimativa, o que é adorável.

— guest47
fonte

1

Estou confuso com a sua descrição do bootstrap paramétrico "o que podemos fazer é gerar 10.000 amostras ou mais a partir do cdf empírico" Meu entendimento do bootstrap paramétrico é que você faria uma amostra de um modelo que se encaixa nos dados. É isso que a citação original do livro de Murphy está descrevendo. Eu poderia estar lendo errado, mas a amostragem a partir do CDF empírico dos dados seria diretamente amostragem dos pontos de dados, qual seria o bootstrap padrão, não?

— user20160

@ user20160 você está interpretando incorretamente a resposta "Em vez disso": ele está descrevendo a inicialização não paramétrica, não a paramétrica.

— daknowles

4

Realmente aprecio o esforço contribuído por guest47, mas não concordo totalmente com a resposta dele, em alguns aspectos menores. Eu não colocaria minhas divergências diretamente, mas as refletiria nesta resposta.

Em muitos casos, é redundante para computação quando já sabemos a verdade subjacente parâmetro . No entanto, ainda é útil quando queremos olhar para a exatidão e precisão de na estimativa de . Além disso, o primeiro parágrafo da sua passagem citada facilitará a compreensão da noção de "inicialização paramétrica", que abordarei logo depois. $\hat\theta s$ $\theta*$ $\hat\theta s$ $\theta*$
Guest47 dá uma boa resposta. Não há necessidade de elaborar mais.
Em bootstrapping paramétrico, o que você tem é a dados observados D. Você chegar a um modelo paramétrico para ajustar os dados, e uso estimadores (que é uma função dos dados D) para os verdadeiros parâmetros . Então você gerar milhares de conjuntos de dados a partir do modelo paramétrico com , e estimar para estes modelos. No bootstrapping não paramétrico, você usa diretamente D, amostra (por milhares de vezes) exatamente de D, em vez de dados gerados. $\hat\theta$ $\theta*$ $\hat\theta$ $\hat\theta s$

— QINGYUAN FENG
fonte

2

Não sou especialista, mas pelo que vale a pena:

Porque você está interessado na distribuição da amostra, conforme mencionado na primeira frase da sua cotação.
A distribuição empírica é a distribuição que você vê no seu número finito de amostras. A distribuição de amostragem é o que você veria se coletasse um número infinito de amostras.

Não sei responder 3. Sempre entendi o que é descrito aqui como inicialização não paramétrica como "a" inicialização.

Se você ainda não entendeu completamente o conceito da distribuição de amostragem, há um encadeamento muito bom aqui que apresenta código R muito ilustrativo.

— miura
fonte

5

A diferença entre o bootstrap paramétrico e não paramétrico é que o primeiro gera suas amostras a partir da distribuição (assumida) dos dados, usando os valores estimados dos parâmetros, enquanto o último gera suas amostras por amostragem com substituição dos dados observados - nenhum modelo paramétrico assumido .

— jbowman

@jbowman - o bootstrap "não paramétrico" não tem um modelo subjacente - apenas que é um modelo diferente ao usado para motivar a estimativa do parâmetro.

— probabilityislogic

@miura Por favor, não vandalize sua resposta. Se você quiser que o solicitante escolha uma resposta diferente, comente a pergunta. Se você deseja que sua resposta seja excluída, sinalize-a e peça isso.

— Glen_b -Reinstala Monica