Intuitivamente, como funciona o bootstrap selvagem?

Estou tentando entender a intuição por trás do bootstrap selvagem. O que ele está realmente fazendo? Eu preciso ser capaz de entender o que está tentando fazer em comparação com uma regressão convencional.

Meus dados têm heterocedasticidade e o método que utilizo faz 5000 repetições.

Como ele gera 5000 dados extras?

regression bootstrap intuition

— Francis Origi
fonte

Digamos que você tenha um conjunto de treinamento de pares de exemplos . $\mathcal{T}$ $n$ $(y_i, \vec{x}_i)$

Um bootstrap normal é um conjunto de pares de exemplos , em que é uma sequência de números aleatórios amostrados uniformemente de 1 a . Em particular, observe que todos os exemplos em são exatamente iguais aos de , e alguns são repetidos. Mas isso é um pouco estranho, especialmente quando a variável de resposta é contínua, porque, se fizermos uma nova amostragem da população original, quase certamente não teremos nem uma duplicata exata , enquanto é provável que um bootstrap tenha muitos. $\mathcal{B}$ $n$ $(y_{r_i}, \vec{x}_{r_i})$ $r_i$ $n$ $n$ $\mathcal{B}$ $\mathcal{T}$

Para evitar duplicatas, precisamos que os exemplos de não sejam cópias de carbono de exemplos de , mas sim exemplos sintéticos que se parecem mais com o que obteríamos, amostrados da população original. Isso requer uma suposição sobre a distribuição da população original. $\mathcal{B}$ $\mathcal{T}$

Se assumirmos a homoskedasticidade e ajustar um modelo linear a que possui resíduos , podemos construir novos exemplos sintéticos substituindo o residual ajustado de cada exemplo pelo residual de um exemplo de treinamento diferente . Se os resíduos são realmente iid, não deve haver problema em trocar um por outro. Fazemos essa substituição subtraindo o resíduo encontrado para o exemplo de treinamento e adicionando o resíduo para outro exemplo: $\mathcal{T}$ $e_i$ $(y_i, \vec{x}_i)$

\begin{matrix} (1) & y_{i}^{*} = y_{r_{i}} - e_{r_{i}} + e_{r_{i}^{'}} \end{matrix}

$y^*_i = y_{r_i} - e_{r_i} + e_{r'_i} \tag{1}$

Onde e são duas reamostragens diferentes e independentes. Podemos então formar o bootstrap da maneira usual: $r_i$ $r'_i$

\begin{matrix} (2) & B = {(y_{i}^{*}, {\vec{x}}_{i})}_{i = 1}^{n} \end{matrix}

$\mathcal{B} = \{\, (y^*_i, \vec{x}_i)\, \}_{i=1}^n \tag{2}$

Isso é chamado de bootstrap residual e pode-se pensar na escolha de novos resíduos da função de distribuição empírica dos resíduos.

Para relaxar ainda mais as suposições iid e homoskedasticity, podemos usar um bootstrap selvagem , onde calculamos a nova variável de resposta ainda mais aleatoriamente, multiplicando o resíduo escolhido aleatoriamente por outra variável aleatória . $v_i$

\begin{matrix} (3) & y_{i}^{*} = y_{r_{i}} - e_{r_{i}} + v_{i} e_{r_{i}^{'}} \end{matrix}

$y^*_i = y_{r_i} - e_{r_i} + v_i e_{r'_i} \tag{3}$

Frequentemente, a distribuição normal padrão é usada, mas outras opções são possíveis. Por exemplo, às vezes é simplesmente escolhido com igual probabilidade de , que simplesmente inverte o sinal aleatoriamente metade do tempo, forçando a distribuição residual a ser simétrica. O objetivo é obter exemplos de treinamento mais próximos do que teríamos extraído da população original sem a replicação artificial introduzida pelo bootstrap. $v_i \sim \mathcal{N}(0, 1)$ $v_i$ $\{-1,1\}$

— olooney
fonte

Então, basicamente, geramos erros que se comportam da mesma forma que os resíduos reais e, em seguida, obtemos dados reais que funcionam da mesma maneira que os dados reais? Algum livro didático para recomendar?

— Francis Origi

então o que, o que fazemos com todos esses dados extras? Como calculamos as estatísticas t, etc.?

— Francis Origi