Suponha que se execute a chamada inicialização não-paramétrica, desenhando amostras de tamanho cada uma das observações originais com substituição. Eu acredito que este procedimento é equivalente a estimar a função de distribuição cumulativa pelo cdf empírico:
http://en.wikipedia.org/wiki/Empirical_distribution_function
e, em seguida, obtendo as amostras de autoinicialização simulando observações a partir dos tempos estimados de Cdf em uma linha.
Se eu estou certo nisso, é preciso abordar a questão do overfitting, porque o cdf empírico tem cerca de N parâmetros. Obviamente, assintoticamente, converge para a população cdf, mas e as amostras finitas? Por exemplo, se eu lhe disser que tenho 100 observações e vou estimar o cdf como com dois parâmetros, você não ficaria alarmado. No entanto, se o número de parâmetros subir para 100, não pareceria razoável.
Da mesma forma, quando se emprega uma regressão linear múltipla padrão, a distribuição do termo de erro é estimada em . Se alguém decide mudar para o bootstrap dos resíduos, ele deve perceber que agora existem cerca de parâmetros usados apenas para lidar com a distribuição do termo de erro.
Você poderia me indicar algumas fontes que abordam esse problema explicitamente ou me diga por que não é um problema se você acha que eu entendi errado.