Tendo estudado recentemente o bootstrap, surgiu uma pergunta conceitual que ainda me intriga:
Você tem uma população e deseja conhecer um atributo da população, ou seja, , onde eu uso para representar a população. Esse pode ser a média da população, por exemplo. Normalmente você não pode obter todos os dados da população. Então você desenha uma amostra do tamanho da população. Vamos supor que você tenha uma amostra de iid por simplicidade. Então você obtém seu estimador . Você deseja usar para fazer inferências sobre , portanto, gostaria de saber a variabilidade de .P θ X N θ = g ( X ) θ θ θ
Primeiro, há uma verdadeira distribuição amostral de . Conceitualmente, você pode desenhar muitas amostras (cada uma delas com tamanho ) da população. Cada vez que você realizará pois cada vez terá uma amostra diferente. Então, no final, você poderá recuperar a verdadeira distribuição de . Ok, isso pelo menos é o benchmark conceitual para estimativa da distribuição de . Deixe-me reafirmar: o objetivo final é usar vários métodos para estimar ou aproximar a verdadeira distribuição de . N θ =g(X) θ θ
Agora, aqui vem a pergunta. Normalmente, você tem apenas uma amostra que contém pontos de dados. Em seguida, você reamostrar essa amostra várias vezes e criará uma distribuição de bootstrap de . Minha pergunta é: quão perto está essa distribuição de bootstrap da distribuição de amostragem real de ? Existe uma maneira de quantificá-lo?N θ