Imagine que você conduziu um estudo sobre as realizações educacionais das crianças. Você tirou uma amostra aleatória de escolas de alguma área e de cada escola uma classe foi incluída no estudo. Você conduziu a análise e agora deseja usar o bootstrap para obter intervalos de confiança para suas estimativas. Como fazer isso?
Primeiro, observe que seus dados são hierárquicos, eles têm vários níveis: escolas, aulas nas escolas e alunos nas aulas. Como há apenas uma turma por escola, o segundo nível não existe nos seus dados. Podemos assumir que existem algumas semelhanças nas escolas e diferenças entre as escolas. Se houver semelhanças nas escolas, se você fizer uma amostragem aleatória dos alunos, sem levar em consideração a participação na escola, você poderá destruir a estrutura hierárquica dos seus dados.
Em geral, existem várias opções:
- amostra de alunos com substituição,
- experimente escolas inteiras com substituição,
- primeiro experimente as escolas com substituição e depois experimente os alunos (a) com substituição ou (b) sem substituição.
Parece que a primeira abordagem é a pior. Lembre-se de que a amostragem por autoinicialização deve, de alguma forma, imitar o processo de amostragem em seu estudo e você estudou escolas em vez de alunos individuais. Escolher entre (2) e (3) é mais complicado, mas espero que você possa encontrar trabalhos de pesquisa considerando esse tópico (por exemplo, Rena et al. 2010, Field e Welsh, 2007). Geralmente as opções (2) ou (3b) são preferíveis, pois parece que incluir níveis demais de amostragem com substituição leva a resultados tendenciosos. Você pode encontrar mais informações sobre esse tópico também nos livros de Efron e Tibshirani (1994) e Davison e Hinkley (1997). Observe que temos um problema semelhante com a inicialização de dados de séries temporaise, nesse caso, também experimentamos blocos inteiros de séries (por exemplo, temporada inteira, se assumirmos sazonalidade), em vez de observações individuais, porque, caso contrário, a estrutura temporal seria destruída. Na prática, não existe uma solução única, mas com estruturas de dados complicadas, você deve escolher um esquema de amostragem de autoinicialização que melhor se adapte aos seus dados e ao seu problema e, se possível, use um estudo de simulação para comparar diferentes soluções.
Davison, AC e Hinkley, DV (1997). Métodos de inicialização e sua aplicação. Cambridge.
Efron, B. e Tibshirani, RJ (1994). Uma introdução ao Bootstrap . CRC Pressione.
Ren, S., Lai, H., Tong, W., Aminzadeh, M., Hou, X. e Lai, S. (2010). Bootstrapping não paramétrico para dados hierárquicos. Jornal de Estatística Aplicada, 37 (9), 1487-1498.
Field, CA, e Galês, AH (2007). Bootstrapping de dados em cluster. Jornal da Sociedade Estatística Real: Série B (Metodologia Estatística), 69 (3), 369-390.