Bloquear bootstrap para um iniciante

Para colocar minha pergunta em contexto, sou físico, mas com exposição limitada à estatística e o que aprendi sobre isso há mais de 30 anos.

Estou tentando aprender sobre a inicialização do bloco, pois essa técnica pode ser adequada para resolver um problema no qual estou trabalhando. Eu posso encontrar muitos artigos / livros / informações sobre a matemática do bootstrapping de bloco, mas gostaria de encontrar primeiro uma descrição genérica do processo de bootstrapping de bloco antes de 'aventurar-nos' em questões como bootstrapping de bloco móvel, bootstrapping de bloco circular, bootstrapping de bloco estacionário , comprimentos de bloco, tamanho da amostra etc.

Excesso de amostra de dados correlacionados, 5 variáveis (colunas) por 10000 observações (linhas) que quero reduzir para cerca de 100 linhas de dados. Os dados são temporários, mas não contínuos, e também pode haver dados de locais diferentes, o que significa que você pode ter dados diferentes ao mesmo tempo (se o último for um problema para a inicialização do bloco, eu poderia remover dados 'duplicados' em tempo). A inicialização do bloco permitiria replicar a correlação dos dados.

O objetivo final é reduzir o conjunto de dados para ~ 100 linhas de dados, de modo que pdf e cdf do conjunto de dados completo e o conjunto de dados reduzido sejam os mesmos (dentro de um intervalo de erro mínimo ainda a ser definido) para todas as 5 variáveis.

Pergunta: 1) O bloco de inicialização será capaz de fazer isso? 2) Qual é o processo passo a passo que é feito? Não espero que ninguém escreva o processo completo em detalhes aqui, mas talvez alguém tenha colocado um vídeo do YouTube ou um 'bootstrapping for dummies' por aí que eu poderia começar.

Analisei perguntas semelhantes sobre a inicialização de blocos aqui e há uma sobre "Recursos para aprender sobre a inicialização de blocos na análise de séries temporais", mas as referências nas respostas pressupõem um conhecimento estatístico que ainda preciso dominar.

time-series bootstrap

— Frank Drost
fonte

Que tal esta introdução ? Ele tem uma introdução ao bootstrap e depois ao bloco de bootstrap.

— David G Williams

A reamostragem livre de modelo de séries temporais é realizada por reamostragem de bloco, também chamada de bootstrapping de bloco, que pode ser implementada usando a função tsboot no pacote de inicialização do R. A idéia é dividir a série em blocos de comprimento aproximadamente igual de observações consecutivas, reamostrar o bloco com substituição e depois colar os blocos. Por exemplo, se a série temporal é de 200 e se usa 10 blocos de 20, então os blocos são as primeiras 20 observações, as próximas 20 e assim por diante. Uma possível nova amostra é o quarto bloco (observação 61 a 80), depois o último bloco (observação 181 a 200), depois o segundo bloco (observação 21 a 40), depois o quarto bloco novamente e assim por diante até que haja 10 blocos na nova amostra. Como você faz bootstrap com dados de séries temporais?

— economia
fonte

O que a economia explicou sobre o boostrapping está correto, mas observe que a amostra de bootstrap não é usada para reduzir um conjunto de dados para um conjunto de dados menor com a mesma distribuição subjacente. (que você disse que era seu objetivo). O bootstrapping é usado para testar algumas hipóteses, criando a amostra com bootstrap e, em seguida, ver onde a estatística (a que está sendo testada) cai com relação à distribuição empírica da amostra com bootstrap. Portanto, a redução de um conjunto de dados para um conjunto menor de dados não é o objetivo do bstrapping. É usado para teste de hipóteses de maneira livre de modelo.

— mlofton