O Google Trends retorna dados semanais, portanto, preciso encontrar uma maneira de mesclá-los com meus dados diários / mensais.
O que fiz até agora é dividir cada série em dados diários, por exemplo:
a partir de:
2013-03-03 - 2013-03-09 37
para:
2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37
Mas isso está adicionando muita complexidade ao meu problema. Eu estava tentando prever pesquisas no Google nos últimos 6 meses, ou 6 valores nos dados mensais. Os dados diários implicariam um trabalho com 180 valores passados. (Eu tenho 10 anos de dados, 120 pontos em dados mensais / 500+ em dados semanais / 3500+ em dados diários)
A outra abordagem seria "mesclar" dados diários em dados semanais / mensais. Mas algumas questões surgem desse processo. Alguns dados podem ser calculados como média porque sua soma representa algo. Chuva, por exemplo, a quantidade de chuva em uma determinada semana será a soma dos valores para cada dia que compõe as semanas.
No meu caso, estou lidando com preços, taxas financeiras e outras coisas. Para os preços, é comum no meu campo levar em consideração o volume trocado, portanto os dados semanais seriam uma média ponderada. Para as taxas financeiras, é um pouco mais complexo: algumas fórmulas estão envolvidas para criar taxas semanais a partir das taxas diárias. Para as outras coisas, não conheço as propriedades subjacentes. Eu acho que essas propriedades são importantes para evitar indicadores sem sentido (uma média das taxas de financiamento seria um absurdo, por exemplo).
Então, três perguntas:
Para propriedades conhecidas e desconhecidas, como devo proceder para passar de dados diários para semanais / mensais?
Sinto que a quebra de dados semanais / mensais em dados diários, como fiz, está um pouco errada, porque estou introduzindo quantidades que não fazem sentido na vida real. Então, quase a mesma pergunta:
Para propriedades conhecidas e desconhecidas, como devo proceder para ir de dados semanais / mensais para dados diários?
Por último, mas não menos importante: quando são fornecidas duas séries temporais com etapas diferentes, o que é melhor: usar a etapa mais baixa ou a maior? Penso que este é um compromisso entre o número de dados e a complexidade do modelo, mas não vejo nenhum argumento forte para escolher entre essas opções.
Edit: se você conhece uma ferramenta (em R Python e até Excel) para fazer isso facilmente, seria muito apreciada.