Por que minimizar o MAE leva a prever a mediana e não a média?


19

No livro de previsão: Princípios e práticas de Rob J Hyndman e George Athanasopoulos , especificamente a seção sobre medição de precisão :

Um método de previsão que minimize o MAE levará a previsões da mediana, enquanto a minimização do RMSE levará a previsões da média

Alguém pode dar uma explicação intuitiva de por que minimizar o MAE leva à previsão da mediana e não da média? E o que isso significa na prática?

Perguntei a um cliente: "o que é mais importante para você fazer previsões médias mais precisas ou evitar previsões muito imprecisas?". Ele disse que fazer previsões médias mais precisas tem maior prioridade. Então, neste caso, devo usar o MAE ou o RMSE? Antes de ler esta citação, acreditava que o MAE seria melhor para essa condição. E agora eu duvido.

Respostas:


17

É útil dar um passo atrás e esquecer o aspecto da previsão por um minuto. Vamos considerar qualquer distribuição e supor que desejamos resumir usando um único número.F

Você aprende muito cedo em suas aulas de estatística que o uso da expectativa de como um resumo de número único minimizará o erro quadrático esperado.F

A questão agora é: por que o uso da mediana de minimiza o erro absoluto esperado ?F

Para isso, recomendo "Visualizar a mediana como local de desvio mínimo", de Hanley et al. (2001, The American Statistician ) . Eles criaram um pequeno applet junto com o artigo, que infelizmente provavelmente não funciona mais com navegadores modernos, mas podemos seguir a lógica do artigo.

Suponha que você fique na frente de um banco de elevadores. Eles podem ser organizados igualmente espaçados ou algumas distâncias entre as portas do elevador podem ser maiores que outras (por exemplo, alguns elevadores podem estar fora de ordem). Em frente da qual elevador você deve estar para ter o mínimo caminhada esperado quando um dos elevadores não chega? Observe que essa caminhada esperada desempenha o papel do erro absoluto esperado!

Suponha que você tenha três elevadores A, B e C.

  • Se você esperar na frente de A, poderá ser necessário caminhar de A a B (se B chegar) ou de A a C (se C chegar) - passando B!
  • Se você esperar na frente de B, precisará caminhar de B para A (se A chegar) ou de B para C (se C chegar).
  • Se você esperar na frente de C, precisará caminhar de C para A (se A chegar) - passando B - ou de C para B (se B chegar).

Observe que, desde a primeira e a última posição de espera, há uma distância - AB na primeira, BC na última posição - que você precisa caminhar em vários casos de elevadores chegando. Portanto, sua melhor aposta é ficar em frente ao elevador do meio - independentemente de como os três elevadores estejam dispostos.

Aqui está a Figura 1 de Hanley et al .:

Hanley et al., Figura 1

Isso generaliza facilmente para mais de três elevadores. Ou para elevadores com chances diferentes de chegar primeiro. Ou, de fato, para contadores infinitamente numerosos. Portanto, podemos aplicar essa lógica a todas as distribuições discretas e passar para o limite para chegar a distribuições contínuas.

F^

F^λln2

Portanto, se você suspeitar que sua distribuição preditiva é (ou deveria ser) assimétrica, como nos dois casos acima, se desejar obter previsões de expectativas imparciais, use o . Se a distribuição puder ser assumida simétrica (normalmente para séries de alto volume), a mediana e a média coincidem, e o uso da também o guiará para previsões imparciais - e o MAE é mais fácil de entender.

Da mesma forma, minimizar o pode levar a previsões tendenciosas, mesmo para distribuições simétricas. Esta resposta anterior contém um exemplo simulado com uma série estritamente positiva (lognormalmente distribuída) assimétrica distribuída, que pode ser significativamente prevista com três previsões de pontos diferentes, dependendo se queremos minimizar o MSE, o MAE ou o MAPE.


9

A resposta de Stephan fornece uma explicação intuitiva de por que a minimização do erro médio absoluto fornece a mediana. Agora, para responder qual dos MSE, MAE ou MAPE usar:

O MAE é robusto , o que significa que é menos sensível a valores discrepantes. Imagine uma série com um erro um milhão de vezes maior do que deveria. No MSE, ele puxará a previsão um milhão / N vezes (onde N é o número de pontos), enquanto o MAE será puxado apenas por 1 unidade.

Infelizmente, o MAE não é único , portanto pode exibir algum tipo de comportamento esquizofrênico.

Portanto, minha recomendação é primeiro fazer um MSE, depois usar os parâmetros MSE para iniciar a regressão do MAE.

De qualquer forma, compare as duas previsões: se elas são muito diferentes, há algo fedorento nos seus dados.

insira a descrição da imagem aquiinsira a descrição da imagem aqui

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.