Se os pares preditores de resposta foram obtidos de uma população por amostra aleatória, é seguro usar o esquema de reamostragem de caso / aleatório-x / seu primeiro. Se os preditores foram controlados ou os valores dos preditores foram definidos pelo pesquisador, você pode considerar o uso de um esquema de reamostragem residual / baseado em modelo / fixo-x / seu segundo.
Como os dois diferem? Uma introdução ao bootstrap com aplicativos em R de Davison e Kounen tem uma discussão pertinente a esta questão (consulte a p.9). Veja também o código R neste apêndice de John Fox , particularmente funções boot.huber na p.5 para o esquema random-x e boot.huber.fixed na p.10 para o esquema x fixo. Enquanto nas notas de aula de Shalizi os dois esquemas são aplicados a diferentes conjuntos de dados / problemas, o apêndice de Fox ilustra a pouca diferença que os dois esquemas costumam fazer.
Quando se espera que os dois entreguem resultados quase idênticos? Uma situação é quando o modelo de regressão é especificado corretamente, por exemplo, não há não-linearidade não modelada e as suposições usuais de regressão (por exemplo, erros de identificação, sem discrepâncias) são satisfeitas. Veja o capítulo 21 do livro de Fox (no qual o apêndice mencionado acima com o código R pertence indiretamente), particularmente a discussão na página 598 e o exercício 21.3. intitulado "Reamostragem aleatória versus fixa em regressão". Para citar o livro
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.
Você também aprenderá com essa discussão por que o bootstrap de x fixo supõe implicitamente que a forma funcional do modelo está correta (mesmo que nenhuma suposição seja feita sobre a forma da distribuição de erros).
Veja também o slide 12 desta palestra para a Society Of Actuaries in Ireland, de Derek Bain. Ele também tem uma ilustração do que deve ser considerado "o mesmo resultado":
The approach of re-sampling cases to generate pseudo data is the more usual form of
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.
The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are
equivalent.