Interpretação do erro médio absoluto em escala (MASE)


22

O erro médio absoluto em escala (MASE) é uma medida da precisão da previsão proposta por Koehler & Hyndman (2006) .

MASE=MAEMAEinsample,naive

onde é o erro absoluto médio produzido pela previsão real; enquanto é o erro absoluto médio produzido por uma previsão ingênua (por exemplo, previsão sem alteração para uma série temporal integrada ), calculada nos dados da amostra.M A E I n - é um m p l e ,MAE
I(1)MAEinsample,naiveI(1)

(Confira o artigo de Koehler & Hyndman (2006) para obter uma definição e fórmula precisas.)

MASE>1 implica que a previsão real se sai pior da amostra do que uma previsão ingênua da amostra, em termos de erro absoluto médio. Portanto, se o erro absoluto médio for a medida relevante da precisão da previsão (que depende do problema em questão), o sugere que a previsão real seja descartada em favor de uma previsão ingênua, se esperamos que os dados fora da amostra sejam ser bastante parecido com os dados dentro da amostra (porque sabemos apenas como uma previsão ingênua foi executada na amostra, e não fora da amostra).MASE>1

Questão:

MASE=1,38 foi usado como referência em um concurso de previsão proposto nesta postagem do blog Hyndsight . Uma referência óbvia não deveria ter sido ?MUMASE=1

Obviamente, essa pergunta não é específica para a competição de previsão específica. Gostaria de alguma ajuda para entender isso em um contexto mais geral.

Meu palpite:

A única explicação sensata que vejo é que se esperava que uma previsão ingênua fosse muito pior fora da amostra do que na amostra, por exemplo, devido a uma mudança estrutural. Então pode ter sido muito difícil de alcançar.MUMASE<1

Referências:


Em seu post no blog, Rob observa de onde vem essa referência: "Esses limites são os métodos com melhor desempenho na análise desses dados descritos em Athanasopoulos et al (2010)". Você já olhou para o jornal Athanosopoulos?
S. Kolassa - Restabelece Monica

Estou um pouco intrigado com "seu palpite": uma mudança estrutural significaria que a previsão sofisticada seria baseada em dados passados ​​parcialmente irrelevantes. Mas como uma quebra estrutural afetaria uma previsão "sem mudança" depende da quebra. Se, por exemplo, estamos olhando para uma caminhada aleatória com desvio, e a ruptura estrutural significa que a deriva, o termo constante, ficou mais baixa , então a previsão "sem mudança" terá um desempenho melhor após o intervalo do que antes.
Alecos Papadopoulos

MUMASE>>1

MUMASE

Respostas:


15

Na postagem do blog vinculado , Rob Hyndman pede entradas para uma competição de previsão de turismo. Essencialmente, a postagem do blog serve para chamar a atenção para o artigo relevante da IJF , cuja versão não relacionada está vinculada à postagem do blog.

Os parâmetros de referência a que você se refere - 1,38 para mensal, 1,43 para trimestral e 2,28 para dados anuais - foram aparentemente apresentados a seguir. Os autores (todos eles são especialistas em previsão e muito ativos no IIF - nenhum vendedor de óleo de cobra aqui) são capazes de aplicar algoritmos de previsão padrão ou software de previsão, e provavelmente não estão interessados ​​no simples envio do ARIMA. Então eles foram e aplicaram alguns métodos padrão aos seus dados. Para que a inscrição vencedora seja convidada para um trabalho na IJF , eles solicitam que ela melhore o melhor desses métodos padrão, conforme medido pelo MASE.

Portanto, sua pergunta se resume basicamente a:

Dado que um MASE de 1 corresponde a uma previsão que está fora da amostra tão boa (por MAD) quanto a ingênua previsão de caminhada aleatória na amostra, por que métodos de previsão padrão como o ARIMA não podem melhorar a 1,38 para dados mensais?

Aqui, o 1,38 MASE vem da Tabela 4 na versão sem porta. É o ASE médio entre 1 e 24 meses à frente das previsões da ARIMA. Os outros métodos padrão, como ForecastPro, ETS etc., apresentam desempenho ainda pior.

exp(t)com métodos padrão. Nada disso capturará a tendência de aceleração (e isso geralmente é uma coisa boa - se o seu algoritmo de previsão geralmente modela uma tendência de aceleração, você provavelmente ultrapassará sua marca), e eles produzirão um MASE acima de 1. Outras explicações podem , como você diz, haverá diferentes quebras estruturais, por exemplo, mudanças de nível ou influências externas como SARS ou 9/11, que não seriam capturadas pelos modelos de referência não causais, mas que poderiam ser modeladas por métodos dedicados de previsão de turismo (embora usando causais futuros em uma amostra de validação é uma espécie de trapaça).

Então, eu diria que você provavelmente não pode dizer muito sobre isso sem olhar para os próprios dados. Eles estão disponíveis no Kaggle. É provável que sua melhor aposta seja na série 518, aguarde nos últimos 24 meses, ajuste na série ARIMA, calcule MASEs, desenterre as dez ou vinte séries de previsão MASE-pior, tome um bule de café grande, veja essas séries e tente descobrir o que torna os modelos ARIMA tão ruins em prevê-los.

EDIT: outro ponto que parece óbvio após o fato, mas me levou cinco dias para ver - lembre-se que o denominador da MASE é o um passo à frente dentro da amostra previsão do passeio aleatório, enquanto o numerador é a média do 1-24- antecipar previsões. Não é de surpreender que as previsões se deteriorem com o aumento de horizontes; portanto, esse pode ser outro motivo para um MASE de 1,38. Observe que a previsão de ingênua sazonal também foi incluída no benchmark e teve um MASE ainda mais alto.


Ótima resposta! Obrigado pelo resumo conciso do artigo original (ele servirá como um atalho útil para todos os não iniciados). Parece que a principal idéia por trás da sua resposta não entra em conflito com o meu palpite (mas a amplia); existe algo especial fora da amostra que o erro de previsão ingênuo dentro da amostra subestima.
Richard Hardy

2

Não é uma resposta, mas uma trama após o chamado de Stephan Kolassa para "olhar para estas séries".
O Kaggle tourism1 possui 518 séries temporais anuais, para as quais queremos prever os últimos 4 valores:

insira a descrição da imagem aqui

5th
Error4(y)14euumast 4|yEu-y-5|
Error4(y)euength(y)

Obviamente, séries muito curtas - 12 11 7 7 7 ... na linha superior - são difíceis de prever: sem surpresa.
(Athanasopoulos, Hyndman, Song e Wu, The Tourism Forecasting Competition (2011, 23p) usaram 112 das 518 séries anuais, mas não vejo quais.)

Existem outras coleções mais recentes de séries temporais desde 2010 que valem a pena examinar?


Obrigado! Não sei a resposta para sua última pergunta.
Richard Hardy

1
@denis: acabei de ver sua pergunta - você pode solicitar dados no OpenData.SE .
S. Kolassa - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.