A resposta dada por miura não é totalmente exata, então estou respondendo a essa pergunta antiga para a posteridade:
(2) Essas são coisas muito diferentes. O cdf empírico é uma estimativa do CDF (distribuição) que gerou os dados. Precisamente, é o CDF discreta que atribui probabilidade para cada ponto de dados observados, F ( x ) = 11 / n, para cadax. Este estimador converge para o verdadeiro CDF: F (x)→F(x)=P(Xi≤x)quase certamente para cadax(na verdade de maneira uniforme).F^( x ) = 1n∑ni = 1Eu( XEu≤ x )xF^( x ) → F( x ) = P( XEu≤ x )x
A distribuição amostral de uma estatística é, em vez disso, a distribuição da estatística que você esperaria ver em experimentações repetidas. Ou seja, você realiza sua experiência uma vez e coleta dados X 1 , … , X n . T é uma função dos seus dados: T = T ( X 1 , … , X n ) . Agora, suponha que você repita o experimento e colete dados X ′ 1 , … , X ′ n . O recálculo de T na nova amostra fornece T ′TX1, … , XnTT= T( X1, … , Xn)X′1, … , X′n . Se nós coletadas 100 amostras teríamos 100 estimativas de T . Estas observações de T formar a distribuição de amostragem de T . É uma verdadeira distribuição. À medida que o número de experimentos chega ao infinito, sua média converge para E ( T ) e sua variação para V a r ( T ) .T′= T( X′1, … , X′n)TTTE( T)Va r ( T)
Em geral, é claro que não experimentos repetidos como este, que só poderá ver uma instância de . Descobrir qual é a variação de T em uma única observação é muito difícil se você não souber a função de probabilidade subjacente de T a priori. Bootstrapping é uma forma de estimar que a distribuição amostral de T por artificialmente correndo "novas experiências" sobre a qual se calculam novas instâncias de T . Cada nova amostra é na verdade apenas uma amostra dos dados originais. O fato de isso fornecer mais informações do que os dados originais é misterioso e totalmente incrível.TTTTT
(1) Você está correto - você não faria isso. O autor está tentando motivar o bootstrap paramétrico, descrevendo-o como fazendo "o que você faria se conhecesse a distribuição", mas substituindo um estimador muito bom da função de distribuição - o cdf empírico.
Por exemplo, suponha que você saiba que sua estatística de teste é normalmente distribuída com média zero, variação um. Como você estimaria a distribuição amostral de T ? Bem, como você conhece a distribuição, uma maneira boba e redundante de estimar a distribuição da amostra é usar R para gerar 10.000 variáveis aleatórias normais padrão, pegar a média e a variância da amostra e usá-las como nossas estimativas da média e variância da distribuição amostral de T .TTT
Se não conhecemos a priori os parâmetros de , mas sabemos que ele é normalmente distribuído, o que podemos fazer é gerar 10.000 amostras ou mais a partir do cdf empírico, calcular T em cada um deles e calcular a média da amostra e variância destes 10.000 T s, e usá-las como nossas estimativas do valor esperado e variância de t . Como o cdf empírico é um bom estimador do cdf verdadeiro, os parâmetros da amostra devem convergir para os parâmetros verdadeiros. Esta é a inicialização paramétrica: você posiciona um modelo na estatística que deseja estimar. O modelo é indexado por um parâmetro, por exemplo ( μ , σ )TTTT( μ , σ), que você estima a partir de amostras repetidas do ecdf.
(3) O bootstrap não paramétrico nem exige que você saiba a priori que é normalmente distribuído. Em vez disso, você simplesmente extrai amostras repetidas do ecdf e calcula T em cada uma. Depois de coletar aproximadamente 10.000 amostras e calcular 10.000 T s, você pode plotar um histograma de suas estimativas. Esta é uma visualização da distribuição amostral de TTTTT. O bootstrap não paramétrico não informa que a distribuição de amostragem é normal, ou gama, ou assim por diante, mas permite estimar a distribuição de amostragem (geralmente) da maneira mais precisa possível. Ele faz menos suposições e fornece menos informações do que o bootstrap paramétrico. É menos preciso quando a suposição paramétrica é verdadeira, mas mais precisa quando é falsa. Qual você usa em cada situação que você encontra depende inteiramente do contexto. É certo que mais pessoas estão familiarizadas com o bootstrap não paramétrico, mas frequentemente uma suposição paramétrica fraca torna um modelo completamente intratável passível de estimativa, o que é adorável.