Calculando intervalos de confiança via bootstrap em observações dependentes

O bootstrap, em sua forma padrão, pode ser usado para calcular intervalos de confiança das estatísticas estimadas, desde que as observações sejam iid. I. Visser et al. em " Intervalos de confiança para parâmetros ocultos do modelo de Markov ", usava uma auto-inicialização paramétrica para calcular ICs para parâmetros do HMM. No entanto, quando ajustamos um HMM em uma sequência de observação, já assumimos que as observações são dependentes (em contraste com os modelos de mistura).

Eu tenho duas perguntas:

O que a suposição iid faz com o bootstrap?
Podemos ignorar o requisito iid em uma inicialização paramétrica?

Visser et al. O método é resumidamente o seguinte:

Assuma que têm uma sequência de observação resultou de amostragem de um HMM com jogo real, mas desconhecida de parâmetros . $Y=o_1,o_2,...,o_n$ $\theta=\theta_1,\theta_2,...,\theta_l$
Os parâmetros podem ser calculados usando o algoritmo $\hat{\theta}=\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_l$
Usar o HMM estimado para gerar uma amostra de bootstrap de tamanho : $n$ $Y^*=o^*_1,o^*_2,...,o^*_n$
Estimar os parâmetros do HMM de acordo com a amostra de $\hat{\theta}^*=\hat{\theta}^*_1,\hat{\theta}^*_2,...,\hat{\theta}^*_l$
Repita os passos 3 e 4 para vezes (por exemplo, = 1000), resultando em estimativas de $B$ $B$ $B$ $\hat{\theta}^*(1),\hat{\theta}^*(2),...,\hat{\theta}^*(B)$
Calcule o CI de cada parâmetro estimado utilizando a distribuição de em estimativas de bootstrap. $\hat{\theta}_i$ $\hat{\theta}^*_i$

Notas (minhas descobertas):

O método dos percentis deve ser usado para calcular ICs para obter uma cobertura correta (normalidade é uma suposição ruim).
O viés da distribuição de auto-inicialização deve ser corrigido. O que significa que a média da distribuição de deve ser deslocado para $\hat{\theta}^*_i$ $\hat{\theta}_i$

confidence-interval bootstrap hidden-markov-model

— Sadeghd
fonte

Primeira pergunta em outras palavras: Qual é o efeito da suposição iid no bootstrap? É uma suposição simplificadora que pode ser removida seguindo um algoritmo ou fórmula mais complexo?

— Sadeghd 13/08/19

Respostas curtas: 1. Simplifica. (Francamente, eu não entendi a pergunta). 2. Não, você nunca pode ignorá-lo, pois a falta de identificação tem consequências imediatas nas variações do que você está estimando.

Resposta média: O problema central do bootstrap é basicamente : 'O procedimento proposto reproduz os recursos dos dados?' . A violação da suposição iid é muito importante: seus dados são dependentes, você (provavelmente) tem menos informações em seus dados do que em uma amostra iid do mesmo tamanho e se você executar uma inicialização ingênua (faça uma nova amostra do indivíduo observações), os erros padrão obtidos serão muito pequenos. O procedimento proposto contorna o problema da falta de independência capturando (ou pelo menos tentando capturar) a dependência na estrutura e nos parâmetros do modelo. Se for bem-sucedido, cada amostra de bootstrap reproduzirá os recursos dos dados, conforme necessário.

Resposta longa:Existem várias camadas de suposições relacionadas ao bootstrap e, mesmo no caso mais simples possível (dados iid, estimativa da média), é necessário fazer pelo menos três suposições: (1) a estatística de interesse é uma função suave dos dados (verdadeiro no caso da média, não tão verdadeiro mesmo no caso dos percentis, totalmente errado com os estimadores correspondentes correspondentes ao vizinho mais próximo); (2) a distribuição a partir da qual você inicializa é "próxima" da distribuição da população (funciona bem no caso de dados iid; pode não funcionar bem no caso de dados dependentes, onde você basicamente tem apenas uma trajetória = uma observação no caso de séries temporais, e você deve invocar suposições adicionais, como estacionariedade e mistura, para estender essa observação única a uma quase população); (3) sua amostra de bootstrap de Monte Carlo é uma aproximação suficientemente boa para o bootstrap completo com todas as subamostras possíveis (a imprecisão do uso de Monte Carlo vs. o bootstrap completo é muito menor do que a incerteza que você está tentando capturar). No caso do bootstrap paramétrico, você também assume que (4) seu modelo explica perfeitamente todos os recursos dos dados.

$y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ ) Portanto, se você quisesse ter uma solução de inicialização totalmente paramétrica, teria que ajustar o modelo para heterocedasticidade junto com o modelo para a média. E se você suspeitar de correlação serial ou outro tipo, também teria que ajustar o modelo para isso. (Veja, o sabor não paramétrico de distribuição livre do bootstrap está praticamente esgotado por enquanto, pois você substituiu a voz dos dados pela voz sintetizada do seu modelo.)

O método que você descreveu contorna a suposição iid, criando uma amostra totalmente nova. O maior problema com a inicialização de dados dependentes é criar a amostra que tenha padrões de dependência suficientemente próximos dos dados originais. Com as séries temporais, você pode usar as autoinicializações do bloco; com dados em cluster, você inicializa todos os clusters; com a regressão heterocedástica, é necessário usar as strings de inicialização curtas (que é uma idéia melhor do que a de inicialização dos resíduos, mesmo que você tenha adaptado um modelo de heteroscedasticidade). No bootstrap de bloco, você deve adivinhar (ou, em outras palavras, ter boas razões para acreditar) que partes distantes da série temporal são aproximadamente independentes, de modo que toda a estrutura de correlação seja capturada pelos 5 ou 10 adjacentes. observações que formam o bloco. Portanto, em vez de reamostrar as observações uma a uma, o que ignora totalmente a estrutura de correlação das séries temporais, você as reamostra em blocos, esperando que isso respeite a estrutura de correlação. O bootstrap paramétrico a que você se refere diz: "Em vez de mexer nos dados e montar as novas bonecas a partir das peças das antigas, por que não carimbar toda a Barbie moldada para você? Em vez disso, descobri que tipo de Barbies que você gosta, e eu prometo que vou fazer de você uma que você também gostaria. " Em vez de mexer nos dados e montar as novas bonecas a partir das peças antigas, por que não carimbar toda a Barbie moldada para você? Eu descobri que tipo de Barbies você gosta, e prometo que vou fazer de você uma que você também gostaria. " Em vez de mexer nos dados e montar as novas bonecas a partir das peças antigas, por que não carimbar toda a Barbie moldada para você? Eu descobri que tipo de Barbies você gosta, e prometo que vou fazer de você uma que você também gostaria. "

No caso do bootstrap paramétrico que você descreveu, você deve ter certeza absoluta de que o ajuste do seu modelo HMM é praticamente perfeito; caso contrário, o bootstrap paramétrico pode levar a resultados incorretos (Barbies que não conseguem mover os braços). Pense no exemplo de regessão heterocedástica acima; ou pense em ajustar um modelo AR (1) aos dados AR (5): o que você fizer com os dados simulados parametricamente, eles não terão a estrutura que os dados originais costumavam ter.

Edit : como Sadeghd esclareceu sua pergunta, posso responder a isso também. Há uma variedade enorme de procedimentos de autoinicialização, cada um abordando uma peculiaridade específica na estatística, no tamanho da amostra, na dependência ou em qualquer problema que possa ocorrer com a autoinicialização. Não existe uma maneira única de lidar com a dependência, por exemplo. (Trabalhei com bootstraps de pesquisa, existem cerca de 8 procedimentos diferentes, embora alguns sejam principalmente de interesse metodológico e não prático; e alguns são claramente inferiores, pois são aplicáveis apenas em casos especiais, e não facilmente generalizáveis.) discussão geral sobre questões que você pode enfrentar com a inicialização, veja Canty, Davison, Hinkley e Ventura (2006). Diagnósticos e soluções de inicialização. The Canadian Journal of Statistics, 34 (1), 5-27 .

— StasK
fonte

Apenas para adicionar um pouco à sua afirmação sobre ter menos informações quando você tem clusters de dados dependentes (na seção Média ), acredito que isso seja verdade quando houver correlação intraclasse positiva dentro de um cluster, mas o oposto será verdadeiro quando houver negativo correlação intraclasse. Obviamente, parece que na maioria dos aplicativos de dados reais as correlações intraclasses são positivas.

— Macro

@ Macro: você certamente está certo em ambos os aspectos (que isso é tecnicamente possível e que é praticamente irrelevante). O mesmo será verdadeiro se você estimar o nível médio de um processo AR (1) com uma correlação negativa, mas, novamente, não consigo pensar em processos reais que possam ter esse recurso. Diferentemente da autocorrelação positiva que é auto-reproduzível em diferentes escalas de tempo, a correlação negativa deve desaparecer se você dobrar a duração do seu período de referência. (Os dados ciclos de negócios, como o PIB dos Estados Unidos, tem correlações negativas no comprimento defasagem de cerca de três anos.)

— Stask

Obrigado pela sua resposta detalhada. Concluí que a re-amostragem paramétrica pode diminuir o efeito da dependência. No entanto, a distribuição paramétrica deve ser, em boa medida, representativa da verdadeira população e os padrões de dependência devem ser regenerados na nova amostragem.

— Sadeghd