Eu também fui seduzido pelo bootstrapping e pelo teorema de Bayes, mas não consegui entender muito bem as justificativas do bootstrapping até olhar para ele de uma perspectiva bayesiana. Então - como explico abaixo - a distribuição de bootstrap pode ser vista como uma distribuição posterior bayesiana, o que torna óbvia a (a?) Lógica por trás do bootstrapping e também teve a vantagem de esclarecer as suposições feitas. Há mais detalhes do argumento abaixo e das suposições feitas em https://arxiv.org/abs/1803.06214 (páginas 22-26).
Como exemplo, configurado na planilha em http://woodm.myweb.port.ac.uk/SL/resample.xlsx (clique na guia de auto-inicialização na parte inferior da tela), suponha que tenhamos uma amostra de 9 medidas com média de 60. Quando usei a planilha para produzir 1000 reamostragens com substituição dessa amostra e arredondar as médias para o número par mais próximo, 82 dessas médias eram 54. A idéia do bootstrap é que use a amostra como uma população "fingida" para ver qual a probabilidade de as médias das amostras 9 serem, portanto, isso sugere que a probabilidade de uma média amostral ser 6 abaixo da média populacional (nesse caso, a população fingida baseada no amostra com média de 60) é de 8,2%. E podemos chegar a uma conclusão semelhante sobre as outras barras no histograma de reamostragem.
Agora vamos imaginar que a verdade é que a média da população real é 66. Se é assim, nossa estimativa da probabilidade da amostra ser 60 (isto é, os dados) é de 8,2% (usando a conclusão no parágrafo acima, lembrando 60 é 6 abaixo da média da população estimada em 66). Vamos escrever isso como
P (Dados dados Média = 66) = 8,2%
e essa probabilidade corresponde a um valor x de 54 na distribuição de reamostragem. O mesmo tipo de argumento se aplica a cada média possível de população de 0, 2, 4 ... 100. Em cada caso, a probabilidade vem da distribuição de reamostragem - mas essa distribuição é refletida sobre a média de 60.
Agora vamos aplicar o teorema de Bayes. A medida em questão só pode assumir valores entre 0 e 100, portanto, arredondando para o número par mais próximo, as possibilidades para a média da população são 0, 2, 4, 6, .... 100. Se assumirmos que a distribuição anterior é plana, cada uma delas tem uma probabilidade anterior de 2% (para 1 dp), e o teorema de Bayes nos diz que
P (PopMean = 66 dados fornecidos) = 8,2% * 2% / P (dados)
Onde
P (Dados) = P (PopMean = 0 dado) * 2% + P (PopMean = 2 dado) * 2% + ... + P (PopMean = 100 dado) * 2%
Agora podemos cancelar os 2% e lembrar que a soma das probabilidades deve ser 1, pois as probabilidades são simplesmente as da distribuição de reamostragem. O que nos deixa com a conclusão de que
P (PopMean = 66) = 8,2%
Lembrando que 8,2% é a probabilidade da distribuição de reamostragem correspondente a 54 (em vez de 66), a distribuição posterior é simplesmente a distribuição de reamostragem refletida sobre a média da amostra (60). Além disso, se a distribuição de reamostragem for simétrica no sentido de que as assimetrias são aleatórias - como é neste e em muitos outros casos, podemos considerar a distribuição de reamostragem como idêntica à distribuição de probabilidade posterior.
Este argumento faz várias suposições, a principal delas é que a distribuição anterior é uniforme. Estes estão detalhados no artigo citado acima.