Poisson de previsão, intervalos de precisão e previsão

Estou tentando prever Poissondados, divididos em grupos, de 1-26 months of data, dependendo do grupo. Dos dados agrupados 65% has a value of 0e 25% a value of 1. Não encontrei nenhuma tendência ou sazonalidade, então comecei a testar alguns modelos diferentes de papelaria. Moving average (3), Moving Average (6), Simple Exponential Smoothing, NaïveE Simple Mean.

Eu preciso para prever 1-6 meses à frente e usados MAD, MSEe RMSEpara testar a precisão dos modelos. Parece que o mais preciso é o Simple Mean, com um RMSE of 1e um MAD of 0,638. Eu acho que isso é realmente alto, mas não tenho idéia de como fazer algo sobre isso.

Existem métodos de previsão que eu não pensei que poderiam ser muito melhores? Estou olhando algo demais?

A única coisa que pude encontrar sobre os intervalos de previsão foi F+tse F-tscom Fcomo previsão, tcomo distribuição t alfa (n-2)e scomo desvio padrão. Não acho que fosse uma fonte realmente confiável, mas como não consegui encontrar mais nada, não tenho certeza sobre como configurar esses intervalos de previsão. Este método está correto?

Eu não tenho R para usar. Eu preciso fazer isso sozinho.

— R. White
fonte

Você tem o que é chamado de demanda intermitente , ou seja, uma série temporal de demanda caracterizada por "muitos" zeros. (Se a sua série temporal não for demanda em si, a maior parte do que se segue ainda será aplicada.) Portanto, uma pesquisa na Web por "previsão de demanda intermitente" já seria útil. Teunter e Duncan (2009, JORS) fornecem uma visão geral dos métodos de previsão de demanda intermitentes.

O método padrão de previsão de demandas intermitentes é o método de Croston. Use suavização exponencial em intervalos entre demandas e tamanhos de demanda diferentes de zero separadamente . A previsão de ponto é a razão entre a demanda suavizada diferente de zero e o intervalo entre demandas suavizado. Syntetos e Boylan (2001, IJPE) observam que Croston é um pouco tendencioso e propõe uma modificação, mas isso geralmente não faz muita diferença na prática.

Uma alternativa são os modelos de média móvel autoregressiva inteira (INARMA), que modificam os modelos padrão de séries temporais ARIMA. Maryam Mohammadipour escreveu uma tese sobre isso.

Pessoalmente, tenho grandes dúvidas sobre a utilidade de tal previsão de pontos de expectativa. Uma série temporal de 1 demanda a cada dois períodos de tempo tem uma expectativa de 0,5 ... assim como uma série temporal de 2 demandas a cada quarto período de tempo ... e assim por diante - embora essas sejam, obviamente, cada vez menos Poisson-y . Eu diria que é muito mais útil entender toda a distribuição futura (e preditiva) de demandas. Por isso, aplaudo a sua procura por intervalos de previsão!

$\alpha(n-2)$ $\hat{y}$ $\lambda=\hat{y}$

Shenstone e Hyndman (2005, JoF) observam que não existe um modelo estocástico consistente para o qual o método de Croston seria ideal - todos os modelos candidatos são (1) contínuos, não discretos e (2) podem produzir valores negativos. No entanto, para esses modelos candidatos, Shenstone e Hyndman fornecem intervalos de previsão.

Finalmente, uma palavra de cautela: não use o MAD para avaliar a precisão das previsões de dados de contagem, especialmente para demandas intermitentes. A MAD esperada é minimizada pela mediana da sua distribuição futura, não pela média , e se você escrever que 65% dos seus dados são zeros, a mediana é zero ... o que implica que você provavelmente obterá a MAD mais baixa por um nível plano previsão zero, que é muito tendenciosa e provavelmente inútil. Aqui está uma apresentação que fiz no Simpósio Internacional de Previsão do ano passado sobre esta questão. Ou veja Morlidge (2015, Foresight) .

Peça final de autopromoção desavergonhada: tenho um artigo na IJF (Kolassa, 2016) que analisa a previsão de dados de baixa contagem de volumes (principalmente intermitentes), diferentes medidas de precisão e diferentes métodos de previsão, incluindo vários tipos de modelos de Poisson. Isso pode ser útil para você.

— Stephan Kolassa
fonte

Obrigado pela reação Stephan. Você me fornece muitos conhecimentos e insights novos, estou mudando completamente meus caminhos. Gostaria muito como um PDF de seu manuscrito, eu acho que seria realmente útil

— R. White

Outra pergunta, se você não se importa. este artigo descreve como devo testar a intermitência em meus dados. Agora percebo que muitas das medianas de qicada grupo têm um valor de 1. Menor não é realmente possível, de modo que assumiria que a maioria dos meus grupos não é intermitente, certo?

— R. White

Essa classificação é nova para mim. Certamente não é comum na literatura acadêmica. No entanto, conheço os autores desse artigo do SAS e eles geralmente sabem o que estão fazendo. Eu recomendo que você tente métodos intermitentes e não intermitentes em seus dados e veja qual funciona melhor - depois verifique se isso tem alguma coisa a ver com os critérios fornecidos no documento do SAS. Syntetos e Boylan (2005) e Boylan et al. (2008) dão classificações alternativas.

— Stephan Kolassa

É difícil prever demandas intermitentes . O problema é que a diferença entre demanda zero e demanda diferente de zero é (relativamente!) Grande - e que geralmente não sabemos quando a demanda diferente de zero ocorrerá. Eu sugiro que você execute algumas simulações. Simule variáveis aleatórias de Poisson e verifique qual RMSE você obtém ao prever a expectativa (conhecida!). Isso simula a situação em que você sabe qual é a alta demanda, em média , mas não sabe quando a demanda ocorrerá. Você provavelmente descobrirá que os RMSEs são muito grandes.

— Stephan Kolassa

t

$t$

t + 1

$t+1$