Respostas curtas:
1. Simplifica. (Francamente, eu não entendi a pergunta). 2. Não, você nunca pode ignorá-lo, pois a falta de identificação tem consequências imediatas nas variações do que você está estimando.
Resposta média: O problema central do bootstrap é basicamente : 'O procedimento proposto reproduz os recursos dos dados?' . A violação da suposição iid é muito importante: seus dados são dependentes, você (provavelmente) tem menos informações em seus dados do que em uma amostra iid do mesmo tamanho e se você executar uma inicialização ingênua (faça uma nova amostra do indivíduo observações), os erros padrão obtidos serão muito pequenos. O procedimento proposto contorna o problema da falta de independência capturando (ou pelo menos tentando capturar) a dependência na estrutura e nos parâmetros do modelo. Se for bem-sucedido, cada amostra de bootstrap reproduzirá os recursos dos dados, conforme necessário.
Resposta longa:Existem várias camadas de suposições relacionadas ao bootstrap e, mesmo no caso mais simples possível (dados iid, estimativa da média), é necessário fazer pelo menos três suposições: (1) a estatística de interesse é uma função suave dos dados (verdadeiro no caso da média, não tão verdadeiro mesmo no caso dos percentis, totalmente errado com os estimadores correspondentes correspondentes ao vizinho mais próximo); (2) a distribuição a partir da qual você inicializa é "próxima" da distribuição da população (funciona bem no caso de dados iid; pode não funcionar bem no caso de dados dependentes, onde você basicamente tem apenas uma trajetória = uma observação no caso de séries temporais, e você deve invocar suposições adicionais, como estacionariedade e mistura, para estender essa observação única a uma quase população); (3) sua amostra de bootstrap de Monte Carlo é uma aproximação suficientemente boa para o bootstrap completo com todas as subamostras possíveis (a imprecisão do uso de Monte Carlo vs. o bootstrap completo é muito menor do que a incerteza que você está tentando capturar). No caso do bootstrap paramétrico, você também assume que (4) seu modelo explica perfeitamente todos os recursos dos dados.
y=xβ+ϵ[ϵ]=exp[xγ]σ¯2(X′X)−1σ¯21/n∑iexp[xiγ](X′X)−1∑exp[xiγ]xix′i(X′X)−1) Portanto, se você quisesse ter uma solução de inicialização totalmente paramétrica, teria que ajustar o modelo para heterocedasticidade junto com o modelo para a média. E se você suspeitar de correlação serial ou outro tipo, também teria que ajustar o modelo para isso. (Veja, o sabor não paramétrico de distribuição livre do bootstrap está praticamente esgotado por enquanto, pois você substituiu a voz dos dados pela voz sintetizada do seu modelo.)
O método que você descreveu contorna a suposição iid, criando uma amostra totalmente nova. O maior problema com a inicialização de dados dependentes é criar a amostra que tenha padrões de dependência suficientemente próximos dos dados originais. Com as séries temporais, você pode usar as autoinicializações do bloco; com dados em cluster, você inicializa todos os clusters; com a regressão heterocedástica, é necessário usar as strings de inicialização curtas (que é uma idéia melhor do que a de inicialização dos resíduos, mesmo que você tenha adaptado um modelo de heteroscedasticidade). No bootstrap de bloco, você deve adivinhar (ou, em outras palavras, ter boas razões para acreditar) que partes distantes da série temporal são aproximadamente independentes, de modo que toda a estrutura de correlação seja capturada pelos 5 ou 10 adjacentes. observações que formam o bloco. Portanto, em vez de reamostrar as observações uma a uma, o que ignora totalmente a estrutura de correlação das séries temporais, você as reamostra em blocos, esperando que isso respeite a estrutura de correlação. O bootstrap paramétrico a que você se refere diz: "Em vez de mexer nos dados e montar as novas bonecas a partir das peças das antigas, por que não carimbar toda a Barbie moldada para você? Em vez disso, descobri que tipo de Barbies que você gosta, e eu prometo que vou fazer de você uma que você também gostaria. " Em vez de mexer nos dados e montar as novas bonecas a partir das peças antigas, por que não carimbar toda a Barbie moldada para você? Eu descobri que tipo de Barbies você gosta, e prometo que vou fazer de você uma que você também gostaria. " Em vez de mexer nos dados e montar as novas bonecas a partir das peças antigas, por que não carimbar toda a Barbie moldada para você? Eu descobri que tipo de Barbies você gosta, e prometo que vou fazer de você uma que você também gostaria. "
No caso do bootstrap paramétrico que você descreveu, você deve ter certeza absoluta de que o ajuste do seu modelo HMM é praticamente perfeito; caso contrário, o bootstrap paramétrico pode levar a resultados incorretos (Barbies que não conseguem mover os braços). Pense no exemplo de regessão heterocedástica acima; ou pense em ajustar um modelo AR (1) aos dados AR (5): o que você fizer com os dados simulados parametricamente, eles não terão a estrutura que os dados originais costumavam ter.
Edit : como Sadeghd esclareceu sua pergunta, posso responder a isso também. Há uma variedade enorme de procedimentos de autoinicialização, cada um abordando uma peculiaridade específica na estatística, no tamanho da amostra, na dependência ou em qualquer problema que possa ocorrer com a autoinicialização. Não existe uma maneira única de lidar com a dependência, por exemplo. (Trabalhei com bootstraps de pesquisa, existem cerca de 8 procedimentos diferentes, embora alguns sejam principalmente de interesse metodológico e não prático; e alguns são claramente inferiores, pois são aplicáveis apenas em casos especiais, e não facilmente generalizáveis.) discussão geral sobre questões que você pode enfrentar com a inicialização, veja Canty, Davison, Hinkley e Ventura (2006). Diagnósticos e soluções de inicialização. The Canadian Journal of Statistics, 34 (1), 5-27 .