O Profeta do Facebook é diferente de uma regressão linear?


11

Então, o que eu li sobre o profeta do Facebook é que basicamente divide a série temporal em tendência e sazonalidade. Por exemplo, um modelo aditivo seria escrito como:

y(t)=g(t)+s(t)+h(t)+et

com

  • t o tempo
  • g(t) a tendência (pode ser linear ou logística)
  • s(t) a sazonalidade (diária, semanal, anual ...)
  • h(t) os feriados
  • et o erro

Minhas perguntas são: isso não poderia ser feito com uma regressão linear simples? Quais seriam as diferenças em termos de resultados se as comparássemos e por quê?


Sim, você poderia fazer isso com um modelo linear. Eu não conheço o Profeta, mas se isso é tudo o que está fazendo, então não há diferença.
user2974951

Respostas:


13

A questão aqui é chegar a uma equação que analisa os dados observados em sinal e ruído. Se seus dados forem simples, sua abordagem de regressão poderá funcionar. Deve-se tomar cuidado para entender algumas das suposições que eles estão fazendo com o Profeta. Você deve entender melhor o que o Profeta faz, pois ele não se encaixa apenas em um modelo simples, mas tenta adicionar alguma estrutura.

Por exemplo, algumas reflexões que fiz depois de ler sua introdução bem escrita podem ajudá-lo em sua avaliação. Peço desculpas antecipadamente se não entendi a abordagem deles e gostaria de ser corrigido.

1) O exemplo principal deles tem dois pontos de ruptura na tendência, mas eles capturaram apenas o mais óbvio.

2) Eles ignoram toda e qualquer estrutura ARIMA que reflete séries estocásticas omitidas ou o valor de usar valores históricos de Y para orientar a previsão.

3) Eles ignoram qualquer dinâmica possível (efeitos de lead e lag) de séries estocásticas e determinísticas sugeridas pelo usuário. Os efeitos de regressão causal do Profeta são simplesmente contemporâneos.

4) Não é feita nenhuma tentativa para identificar mudanças de nível / passo nas séries ou pulsos sazonais, por exemplo, uma alteração no EFEITO DE SEGUNDA-SE na metade do tempo devido a algum evento externo desconhecido. O Profeta assume "crescimento linear simples" em vez de validá-lo examinando possibilidades alternativas. Para um possível exemplo disso, consulte Previsão de pedidos recorrentes para um negócio de assinaturas on-line usando o Facebook Prophet e R

5) Sines e Cosines são uma maneira opaca de lidar com a sazonalidade, enquanto efeitos sazonais como dia da semana, dia do mês, semana do mês, mês do ano são muito mais eficaz / informativo ao lidar com efeitos antropogênicos (lidar com seres humanos!).

Sugerir frequências de 365,25 para padrões anuais faz pouco sentido, porque não realizamos a mesma ação no mesmo dia que fizemos no ano passado, enquanto a atividade mensal é muito mais persistente, mas o Profeta parece não oferecer os 11 indicadores mensais opção. As frequências semanais de 52 fazem pouco sentido, porque não temos 52 semanas em cada ano.

6) Nenhuma tentativa é feita para validar os processos de erro sendo gaussianos, de modo que testes significativos de significância podem ser feitos.

7) Não há preocupação em que a variação do erro do modelo seja homogênea, ou seja, não seja alterada deterministicamente em momentos específicos, sugerindo os Mínimos Quadrados Ponderados. Não há preocupação em encontrar uma transformação de potência ideal para lidar com a variação de erro proporcional ao valor esperado Quando (e por que) você deve registrar o log de uma distribuição (de números)? .

8) O usuário deve pré-especificar todos os possíveis efeitos de lead e lag em torno de eventos / feriados. Por exemplo, as vendas diárias geralmente começam a aumentar no final de novembro, refletindo um efeito de longo prazo do Natal.

9) Não há preocupação de que os erros resultantes estejam livres de estrutura, sugerindo maneiras de melhorar o modelo via verificação de diagnóstico quanto à suficiência.

10) Aparentemente, nenhuma preocupação em melhorar o modelo excluindo estruturas não significativas.

11) Não há possibilidade de obter uma família de previsões simuladas em que os limites de confiança podem não ser necessariamente simétricos através da inicialização dos erros do modelo, com a possibilidade de possíveis anomalias.

12) Permitir que o usuário faça suposições sobre tendências (número de pontos de interrupção de tendências e pontos de interrupção reais) permite uma flexibilidade indesejável / inutilizável em face de análises em larga escala, que por seu nome são projetadas para aplicativos em grande escala sem o uso das mãos.


Concordo, mas eu diria que essas coisas estão mais próximas dos recursos "legais de ter" e depois "obrigatórios". Você pode ter modelos de previsão de alta qualidade sem alguns deles. Mas, como eu disse, bons pontos e boa revisão.
Tim

Você está certo em sua reflexão ... a complexidade inerente aos "dados" é a questão dominante. Dados simples .. precisa de soluções simples .. dados complexos sugerem que o "bom de ter" pode se tornar "necessário". Somente seus dados sabem ao certo! A navalha de Occam vem à mente ..
IrishStat 16/07/19

O tópico @Tim stats.stackexchange.com/questions/417908/… sugere que alguns recursos "agradáveis ​​de ter" devem, na realidade, ser "obrigatórios" para evitar suposições impróprias, como "tendência linear simples".
IrishStat

10

Eu não o usei, mas este é o resumo da pré-impressão (ênfase minha):

A previsão é uma tarefa comum de ciência de dados que ajuda as organizações com o planejamento de capacidade, o estabelecimento de metas e a detecção de anomalias. Apesar de sua importância, existem sérios desafios associados à produção de previsões confiáveis ​​e de alta qualidade - especialmente quando há uma série de séries temporais e analistas com experiência em modelagem de séries temporais são relativamente raros . Para enfrentar esses desafios, descrevemos uma abordagem prática da previsão "em escala", que combina modelos configuráveis ​​com análise de desempenho de analista em loop. Propomos um modelo de regressão modular com parâmetros interpretáveis ​​que podem ser intuitivamente ajustados por analistas com conhecimento de domínio sobre as séries temporais. Descrevemos análises de desempenho para comparar e avaliar procedimentos de previsão e sinalizamos automaticamente as previsões para revisão e ajuste manuais. As ferramentas que ajudam os analistas a usar seus conhecimentos de maneira mais eficaz permitem a previsão prática e confiável de séries temporais de negócios.

Na introdução:

Observamos dois temas principais na prática de criação de previsões de negócios. Primeiro, técnicas de previsão completamente automáticas podem ser difíceis de ajustar e muitas vezes são inflexíveis demais para incorporar suposições ou heurísticas úteis. Segundo, os analistas responsáveis ​​pelas tarefas de ciência de dados em toda a organização geralmente possuem um profundo conhecimento de domínio sobre os produtos ou serviços específicos aos quais oferecem suporte, mas geralmente não têm treinamento em previsão de séries temporais.

Portanto, parece-me que eles não estão afirmando ter feito um avanço estatístico substancial aqui (embora seja capaz de muito mais do que o modelo simples que você descreve). Em vez disso, eles afirmam que seu sistema viabiliza que um grande número de pessoas sem experiência em análise de séries temporais gere previsões, aplicando sua própria experiência em domínio e restrições específicas do sistema.

Se você já possui experiência na análise de séries temporais e na codificação de modelos complexos, isso pode não ser muito útil para você. Mas se suas afirmações forem verdadeiras, isso pode ser extremamente útil! A ciência (e o comércio) avança não apenas por causa de novas idéias, mas também por causa de novas ferramentas e sua disseminação (veja este pequeno artigo de Freeman Dyson sobre o tópico e esta resposta ).

Para dar um exemplo da própria estatística: Rnão representou um avanço estatístico, mas tem sido altamente influente porque tornou mais fácil para muitas pessoas a análise estatística. Foi o andaime sobre o qual uma grande quantidade de entendimento estatístico foi construída. Se tivermos sorte, o Profeta pode desempenhar um papel semelhante.

Dyson, Freeman J. "A ciência é dirigida principalmente por idéias ou por ferramentas?" Science 338, n. 6113 (2012): 1426-1427.


0

Estão faltando os pontos de mudança, splines lineares por partes, que podem ser implementados em modelos lineares.

Você está certo que, pelo menos no caso limitante, é uma regressão regularizada linear (regularização de L1 e L2).

Observe que existe um modelo de profeta separado, o crescimento logístico.

Você também está assumindo que os fatores sazonais são aditivos, mas também suportam efeitos sazonais multiplicativos, o que parece mais natural, pelo menos para a modelagem de crescimento.


A suposição do profeta de obter registros voa diante dessa discussão valiosa ... stats.stackexchange.com/questions/18844/… em que as transformações de poder são justificadas com base em uma relação empírica entre o Valor Esperado e a variação de erro do modelo OU uma específica presunção não linear baseada no conhecimento do domínio.
IrishStat

@IrishStat Obrigado por esse ponto (perdi muitas vezes a transformação de log para implementar a sazonalidade multiplicativa, eles usam o STAN, então acredito que poderiam ter usado um modelo não-linear em vez de obter logs). Você pode explicar sua distinção entre suposição de sazonalidade multiplicativa e 'presunção não-linear ..' #
seanv507 15/07/19

Se você olhar para a resposta de whuber , stats.stackexchange.com/questions/298/…, ele sugere transformações "quando a teoria científica indicar", o que seria uma possível suposição não linear com base no conhecimento do domínio. As transformações empíricas de potência são úteis quando se verifica que a variação dos erros é proporcional ao valor esperado, caso contrário, pode ser simplesmente "limpeza de janelas".
IrishStat

0

Muito pode ser feito com uma regressão linear simples, mas não tudo o que o Profeta faz. Apenas um exemplo, você pode especificar seu próprio candidato a um ponto de mudança para uma tendência, e o Profeta o usará como anterior.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.