Vamos generalizar, de modo a focar no cerne da questão. Explicarei os mínimos detalhes para não deixar dúvidas. A análise requer apenas o seguinte:
A média aritmética de um conjunto de números é definida comoz1,…,zm
1m(z1+⋯+zm).
A expectativa é um operador linear. Ou seja, quando são variáveis aleatórias e são números, a expectativa de uma combinação linear é a combinação linear das expectativas,α iZi,i=1,…,mαi
E(α1Z1+⋯+αmZm)=α1E(Z1)+⋯+αmE(Zm).
Seja uma amostra obtida de um conjunto de dados , retirando elementos uniformemente de com substituição. Deixe ser a média aritmética de . Esta é uma variável aleatória. Então( B 1 , … , B k ) x = ( x 1 , … , x n ) k x m ( B ) BB(B1,…,Bk)x = ( x1, … , Xn)kxm ( B )B
E ( m ( B ) ) = E ( 1k( B1+ ⋯ + Bk) ) = 1k( E ( B1) + ⋯ + E ( Bk) ))
segue pela linearidade da expectativa. Como os elementos de são todos obtidos da mesma maneira, todos têm a mesma expectativa, dizem:bBb
E ( B1) = ⋯ = E ( Bk) = b .
Isso simplifica o que precede
E ( m ( B ) ) = 1k( b + b + ⋯ + b ) = 1k( k b ) = b .
Por definição, a expectativa é a soma dos valores ponderados pela probabilidade. Como se supõe que cada valor de tenha uma chance igual de de ser selecionado,1 / nX1 / n
E (m(B))=b= E ( B1) = 1nx1+ ⋯ + 1nxn= 1n( x1+ ⋯ + xn) = x¯,
a média aritmética dos dados.
Para responder à pergunta, se alguém usar a média dos dados para estimar a média da população, a média da autoinicialização (que é o caso ) também será igual a e, portanto, será idêntica ao estimador da média da população . k=n ˉ xx¯k = nx¯
Para estatísticas que não são funções lineares dos dados, o mesmo resultado não é necessariamente válido. No entanto, seria errado simplesmente substituir a média de autoinicialização pelo valor da estatística nos dados: não é assim que a autoinicialização funciona. Em vez disso, comparando a média do bootstrap com a estatística dos dados , obtemos informações sobre o viés da estatística. Isso pode ser usado para ajustar a estatística original para remover o viés. Como tal, a estimativa corrigida pelo viés torna-se assim uma combinação algébrica da estatística original e a média do bootstrap. Para obter mais informações, consulte "BCa" (inicialização otimizada e corrigida e corrigida) e "ABC". A Wikipedia fornece algumas referências.