Bootstrap: a questão do overfitting


14

Suponha que se execute a chamada inicialização não-paramétrica, desenhando B amostras de tamanho n cada uma das n observações originais com substituição. Eu acredito que este procedimento é equivalente a estimar a função de distribuição cumulativa pelo cdf empírico:

http://en.wikipedia.org/wiki/Empirical_distribution_function

e, em seguida, obtendo as amostras de autoinicialização simulando n observações a partir dos tempos estimados de Cdf B em uma linha.

Se eu estou certo nisso, é preciso abordar a questão do overfitting, porque o cdf empírico tem cerca de N parâmetros. Obviamente, assintoticamente, converge para a população cdf, mas e as amostras finitas? Por exemplo, se eu lhe disser que tenho 100 observações e vou estimar o cdf como N(μ,σ2) com dois parâmetros, você não ficaria alarmado. No entanto, se o número de parâmetros subir para 100, não pareceria razoável.

Da mesma forma, quando se emprega uma regressão linear múltipla padrão, a distribuição do termo de erro é estimada em N(0 0,σ2) . Se alguém decide mudar para o bootstrap dos resíduos, ele deve perceber que agora existem cerca de n parâmetros usados ​​apenas para lidar com a distribuição do termo de erro.

Você poderia me indicar algumas fontes que abordam esse problema explicitamente ou me diga por que não é um problema se você acha que eu entendi errado.


Uma maneira de visualizar esse bootstrap "não paramétrico" é que ele converte a suposição paramétrica de normalidade em uma "quantidade de interesse" em uma população grande e finita (por exemplo, a média de um Censo de registros). De fato, você pode mostrar que esta versão do bootstrap é baseada em estimativas de "máxima verossimilhança" do modelo multinomial, com 1 categoria para cada "tipo" distinto na população.
probabilityislogic

Respostas:


2

não tenho certeza absoluta de que entendi bem sua pergunta ... presumo que você esteja interessado na ordem da convergência?

porque o cdf empírico tem cerca de N parâmetros. Obviamente, assintoticamente, converge para a população cdf, mas e as amostras finitas?

Você já leu alguns dos conceitos básicos da teoria do bootstrap? O problema é que fica muito selvagem (matematicamente) muito rapidamente.

De qualquer forma, eu recomendo dar uma olhada

van der Vaart "Estatísticas Assintóticas", capítulo 23.

Hall "Expansões de Bootstrap e Edgeworth" (longas, porém concisas e com menos movimento do que van der Vaart, eu diria)

para o básico.

O Chernick "Bootstrap Methods" é mais voltado para usuários do que para matemáticos, mas possui uma seção "onde o bootstrap falha".

O clássico Efron / Tibshirani tem pouco sobre por que o bootstrap realmente funciona ...


4

Janssen e Pauls mostraram que o bootstrap de uma estatística funciona assintoticamente, se um teorema do limite central também pudesse ser aplicado. Portanto, se você comparar a estimativa dos parâmetros de uma distribuição como a distribuição da estatística e a estimativa da distribuição da estatística via bootstrap, o objetivo será o mesmo.N(μ,σ2)

Intuitivamente, o bootstrap de amostras finitas subestima caudas pesadas da distribuição subjacente. Isso é claro, pois as amostras finitas têm um alcance finito, mesmo que o alcance real de sua distribuição seja infinito ou, pior ainda, tenha caudas pesadas. Portanto, o comportamento da estatística de autoinicialização nunca será tão "selvagem" quanto a estatística original. Assim, semelhante a evitar o ajuste excessivo devido a muitos parâmetros na regressão (paramétrica), poderíamos evitar o ajuste excessivo usando a distribuição normal de poucos parâmetros.

Edite respondendo aos comentários: Lembre-se de que você não precisa do bootstrap para estimar o cdf. Você geralmente usa o bootstrap para obter a distribuição (no sentido mais amplo, incluindo quantis, momentos, o que for necessário) de alguma estatística. Portanto, você não tem necessariamente um problema de sobreajuste (em termos de "a estimativa devido aos meus dados finitos parece muito boa em comparação com o que eu deveria ver com a verdadeira distribuição selvagem"). Mas, como se viu (pelo artigo citado e pelo comentário de Frank Harrel abaixo), a obtenção de um problema de sobreajuste está ligada a problemas com a estimativa paramétrica das mesmas estatísticas.

Portanto, como sua pergunta indica, o bootstrap não é uma panacéia contra problemas com estimativa paramétrica. A esperança de que o bootstrap ajude com problemas de parâmetro controlando toda a distribuição é espúria.


1
Ainda não está claro como o bootstrap consegue funcionar, uma vez que o número de parâmetros efetivos envolvidos no bootstrap é aproximadamente o mesmo que o tamanho das amostras. Eu tenho um palpite: o objetivo final do bootstrap não é estimar toda a distribuição, mas estimar 1-2 estatísticas da distribuição. Portanto, apesar de o cdf empírico incorporado no bootstrap ser super-ajustado, as estatísticas estimadas em 1-2 terminam bem de alguma forma. Eu entendi direito?
James

4
O número de parâmetros efetivos não é o mesmo que o tamanho da amostra. A variação da função de distribuição cumulativa empírica é quase a mesma que a variação de um ajuste paramétrico na distribuição quando a distribuição possui 4 parâmetros desconhecidos para estimar. Uma razão é que as estimativas empíricas do CDF são forçadas a estar em ordem crescente.
Frank Harrell

Bom ponto. Você poderia fornecer uma referência?
James

Eu gostaria de ter um. Eu mostrei isso no passado pela simulação de Monte Carlo.
Frank Harrell

@FrankHarrell: Você quer dizer -norm of ou variação ponto a ponto de ? Ou outra coisa? eu2F^-FF^(x)-F(x)
Horst Grünbusch 28/08

0

Uma fonte de intuição pode ser comparar taxas de convergência para CDFs paramétricos versus ECDFs, para dados de IDI.

Por DKW, o CDF empírico converge para o CDF verdadeiro a uma taxa (não apenas em um ponto, mas o supremo da diferença absoluta em todo o domínio dos CDFs): https: // pt .wikipedia.org / wiki / Dvoretzky% E2% 80% 93Kiefer% E2% 80% 93Wolfowitz_inequality http://www.stat.cmu.edu/~larry/=stat705/Lecture12.pdfn-1/2

E por Berry-Esseen, o CDF de uma distribuição de amostragem para uma única média converge para seu limite Normal a uma taxa : https://en.wikipedia.org/wiki/Berry%E2%80 % 93Esseen_theorem (Isso não é exatamente o que queremos --- estamos nos perguntando sobre como o CDF paramétrico estimado dos dados converge, não sobre a distribuição de amostragem. Mas, no caso ideal mais simples, onde os dados são Normal e é conhecido e precisamos apenas estimar , imagino que as taxas de convergência devem ser as mesmas para o CDF dos dados e para o CDF da média?)n-1/2σμ

Portanto, em certo sentido, a taxa na qual você precisa adquirir mais amostras é a mesma, se você está estimando o CDF usando um CDF empírico ou se está estimando um parâmetro diretamente usando um estimador do tipo de média da amostra. Isso pode ajudar a justificar o comentário de Frank Harrell de que "o número de parâmetros efetivos não é o mesmo que o tamanho da amostra".

Claro, essa não é a história toda. Embora as taxas não sejam diferentes, as constantes diferem. E há muito mais no bootstrap não paramétrico do que ECDFs - você ainda precisa fazer as coisas com o ECDF depois de estimar.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.