É útil dar um passo atrás e esquecer o aspecto da previsão por um minuto. Vamos considerar qualquer distribuição e supor que desejamos resumir usando um único número.F
Você aprende muito cedo em suas aulas de estatística que o uso da expectativa de como um resumo de número único minimizará o erro quadrático esperado.F
A questão agora é: por que o uso da mediana de minimiza o erro absoluto esperado ?F
Para isso, recomendo "Visualizar a mediana como local de desvio mínimo", de Hanley et al. (2001, The American Statistician ) . Eles criaram um pequeno applet junto com o artigo, que infelizmente provavelmente não funciona mais com navegadores modernos, mas podemos seguir a lógica do artigo.
Suponha que você fique na frente de um banco de elevadores. Eles podem ser organizados igualmente espaçados ou algumas distâncias entre as portas do elevador podem ser maiores que outras (por exemplo, alguns elevadores podem estar fora de ordem). Em frente da qual elevador você deve estar para ter o mínimo caminhada esperado quando um dos elevadores não chega? Observe que essa caminhada esperada desempenha o papel do erro absoluto esperado!
Suponha que você tenha três elevadores A, B e C.
- Se você esperar na frente de A, poderá ser necessário caminhar de A a B (se B chegar) ou de A a C (se C chegar) - passando B!
- Se você esperar na frente de B, precisará caminhar de B para A (se A chegar) ou de B para C (se C chegar).
- Se você esperar na frente de C, precisará caminhar de C para A (se A chegar) - passando B - ou de C para B (se B chegar).
Observe que, desde a primeira e a última posição de espera, há uma distância - AB na primeira, BC na última posição - que você precisa caminhar em vários casos de elevadores chegando. Portanto, sua melhor aposta é ficar em frente ao elevador do meio - independentemente de como os três elevadores estejam dispostos.
Aqui está a Figura 1 de Hanley et al .:
Isso generaliza facilmente para mais de três elevadores. Ou para elevadores com chances diferentes de chegar primeiro. Ou, de fato, para contadores infinitamente numerosos. Portanto, podemos aplicar essa lógica a todas as distribuições discretas e passar para o limite para chegar a distribuições contínuas.
F^
F^λ≤ln2
Portanto, se você suspeitar que sua distribuição preditiva é (ou deveria ser) assimétrica, como nos dois casos acima, se desejar obter previsões de expectativas imparciais, use o rmse . Se a distribuição puder ser assumida simétrica (normalmente para séries de alto volume), a mediana e a média coincidem, e o uso da mae também o guiará para previsões imparciais - e o MAE é mais fácil de entender.
Da mesma forma, minimizar o mape pode levar a previsões tendenciosas, mesmo para distribuições simétricas. Esta resposta anterior contém um exemplo simulado com uma série estritamente positiva (lognormalmente distribuída) assimétrica distribuída, que pode ser significativamente prevista com três previsões de pontos diferentes, dependendo se queremos minimizar o MSE, o MAE ou o MAPE.