Se a quantidade de interesse, geralmente funcional de uma distribuição, for razoavelmente suave e seus dados estiverem disponíveis, você estará em um território bastante seguro. Obviamente, há outras circunstâncias em que o bootstrap também funcionará.
O que significa para o bootstrap "falhar"
Em termos gerais, o objetivo do bootstrap é construir uma distribuição aproximada da amostra para a estatística de interesse. Não se trata de estimativa real do parâmetro. Portanto, se a estatística de interesse (sob algum redimensionamento e centralização) for e na distribuição, gostaríamos que nossa distribuição de inicialização fosse convergem para a distribuição de . Se não temos isso, não podemos confiar nas inferências feitas.X^nX^n→X∞X∞
O exemplo canônico de quando o bootstrap pode falhar, mesmo em uma estrutura iid, é ao tentar aproximar a distribuição de amostragem de uma estatística de ordem extrema. Abaixo está uma breve discussão.
Estatística de pedido máximo de uma amostra aleatória de uma distribuiçãoU[0,θ]
Seja uma sequência de variáveis aleatórias uniformes de iid em . Deixe . A distribuição de é
(Observe que, por um argumento muito simples, isso na verdade também mostra que em probabilidade, e mesmo, quase certamente , se as variáveis aleatórias estiverem todas definidas no mesmo espaço.)X1,X2,…[0,θ]X(n)=max1≤k≤nXkX(n)
P(X(n)≤x)=(x/θ)n.
X(n)→θ
Um cálculo elementar produz
ou, em outras palavras, converge na distribuição para uma variável aleatória exponencial com média .
P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,
n(θ−X(n))θ
Agora, formamos uma estimativa (ingênua) de autoinicialização da distribuição de , reamostrando com substituição para obter e usando a distribuição de condicional em .n(θ−X(n))X1,…,XnX⋆1,…,X⋆nn(X(n)−X⋆(n))X1,…,Xn
Mas observe que com probabilidade e, portanto, a distribuição do bootstrap tem uma massa de ponto a zero, mesmo que assintoticamente, apesar de o fato de que a distribuição limite real é contínua.X⋆(n)=X(n)1−(1−1/n)n→1−e−1
Mais explicitamente, embora a distribuição limitadora verdadeira seja exponencial com a média , a distribuição limitadora do bootstrap coloca uma massa de pontos no zero do tamanho independentemente do valor real de . Ao tomar suficientemente grande, podemos tornar arbitrária a probabilidade da verdadeira distribuição limitadora pequena para qualquer intervalo fixo , mas o bootstrap ( ainda !) Informa que há pelo menos probabilidade 0,632 nesse intervalo! Por isso, deve ficar claro que o bootstrap pode se comportar arbitrariamente mal nessa configuração.θ1−e−1≈0.632 θθ[0,ε)
Em resumo, o bootstrap falha (miseravelmente) neste caso. As coisas tendem a dar errado quando se lida com parâmetros na extremidade do espaço de parâmetros.
Um exemplo de uma amostra de variáveis aleatórias normais
Existem outros exemplos semelhantes da falha do bootstrap em circunstâncias surpreendentemente simples.
Considere um exemplo de que o espaço de parâmetro para está restrito a . O MLE nesse caso é . Novamente, usamos a estimativa de autoinicialização . Novamente, pode ser mostrado que a distribuição de (condicional na amostra observada) não converge para a mesma distribuição limitadora que .X1,X2,…N(μ,1)μ[0,∞)X^n=max(X¯,0)X^⋆n=max(X¯⋆,0)n−−√(X^⋆n−X^n)n−−√(X^n−μ)
Matrizes intercambiáveis
Talvez um dos exemplos mais dramáticos seja para uma matriz intercambiável. Seja seja uma matriz de variáveis aleatórias tais que, para cada par de matrizes de permutação e , as matrizes e têm a mesma distribuição conjunta. Ou seja, permutar linhas e colunas de mantém a distribuição invariável. (Você pode pensar em um modelo de efeitos aleatórios bidirecional com uma observação por célula como exemplo, embora o modelo seja muito mais geral.)Y=(Yij)PQYPYQY
Suponha que desejemos estimar um intervalo de confiança para a média (devido à suposição de permutabilidade descrita acima, as médias de todos os células devem ser as mesmas).μ=E(Yij)=E(Y11)
McCullagh (2000) considerou duas maneiras naturais (ou seja, ingênuas) de inicializar uma matriz desse tipo. Nenhum deles obtém a variação assintótica para a média da amostra correta. Ele também considera alguns exemplos de uma matriz trocável unidirecional e regressão linear.
Referências
Infelizmente, o assunto não é trivial, portanto, nenhuma dessas leituras é particularmente fácil.
P. Bickel e D. Freedman, Alguma teoria assintótica para o bootstrap . Ann. Estado. vol. 9, n. 6 (1981), 1196-1217.
DWK Andrews, Inconsistência do bootstrap quando um parâmetro está no limite do espaço de parâmetro , Econometrica , vol. 68, n. 2 (2000), 399-405.
P. McCullagh, Reamostragem e matrizes permutáveis , Bernoulli , vol. 6, n. 2 (2000), 285-301.
EL Lehmann e JP Romano, Testando Hipóteses Estatísticas , 3º. ed., Springer (2005). [Capítulo 15: Métodos gerais de amostra grande]