Eu gostaria de avaliar vários modelos diferentes que fornecem previsões de comportamento em um nível mensal. Os dados são equilibrados e 100.000 e T = 12. O resultado é assistir a um concerto em um determinado mês; portanto, é zero para ~ 80% das pessoas em qualquer mês, mas há uma longa cauda direita de usuários pesados. As previsões que tenho parecem não respeitar a natureza da contagem do resultado: shows fracionários são predominantes.
Não sei nada sobre os modelos. I apenas observar 6 diferentes previsões de caixa preta y 1 , . . . , Y 6 para cada pessoa por mês. Eu tenho um ano extra de dados que os criadores de modelos não possuíam para a estimativa (embora os frequentadores de shows continuem os mesmos) e gostaria de avaliar onde cada um apresenta um bom desempenho (em termos de exatidão e precisão). Por exemplo, algum modelo prevê bem os freqüentadores de shows, mas fracassa nas batatas de sofá? A previsão para janeiro é melhor que a previsão para dezembro? Como alternativa, seria bom saber que as previsões me permitem classificar as pessoas corretamente em termos de valores reais, mesmo que a magnitude exata não seja confiável.
Meu primeiro pensamento foi para executar uma efeitos fixos regressões de reais em manequins previstos e tempo e olhar para os RMSEs ou para cada modelo. Mas isso não responde à pergunta sobre onde cada modelo se sai bem ou se as diferenças são significativas (a menos que eu inicialize o RMSE). A distribuição do resultado também me preocupa com essa abordagem.
Minha segunda idéia foi dividir o resultado em 0, 1-3 e 3+ e calcular a matriz de confusão, mas isso ignora a dimensão do tempo, a menos que eu faça 12 delas. Também é bastante grosseiro.
Estou ciente dos comandos Stata concord
de TJ Steichen e NJ Cox - que tem a by()
opção, mas isso exigiria o recolhimento dos dados para totais anuais. Isso calcula o Índice de correlação de concordância de Lin com intervalos de confiança, entre outras estatísticas úteis. O CCC varia de -1 a 1, com concordância perfeita em 1.
Como você resolveria esse problema? Você sugeriria o cálculo de estatísticas como MAPE, comuns na previsão?
Coisas úteis encontradas até agora:
- Slides em uma versão de medida repetida do coeficiente de correlação de concordância de Lin