Eu sou novo na análise de séries temporais e gostaria de receber sugestões sobre a melhor forma de abordar o seguinte problema de regressão de séries temporais: tenho medições de temperatura por hora em aproximadamente 20 locais em um local ao longo de três anos, juntamente com informações auxiliares estáticas (inclinação, elevação, aspecto, cobertura do dossel). O local possui vários hectares e os dispositivos de registro de temperatura estão espalhados pelo local ao longo de duas transectas, a intervalos de ~ 20-50 m. A cerca de 1 km, tenho dados horários de uma estação meteorológica, que também fornece medições da velocidade do vento, direção do vento, umidade, iluminação solar, etc.
Eu gostaria de poder prever a temperatura (mín., Máx., Média) no local (em geral) usando apenas os dados da estação meteorológica; está no lugar semi-permanentemente, enquanto os registradores de temperatura no local só estavam presentes por 3 anos. Portanto, em essência, tenho várias variáveis independentes (temperatura, umidade, vento, etc.) em um local (a estação meteorológica), mas uma única variável dependente (temperatura) em vários locais, cada uma das quais também possui vários atributos invariantes no tempo: inclinação, elevação, aspecto, etc.
Estou mais interessado em prever os mínimos e máximos diários no local em geral, em vez das temperaturas horárias em cada local de gravação de temperatura no local. Embora essas previsões horárias certamente tenham valor.
Minha abordagem inicial foi calcular as médias diárias, mínimas e máximas das temperaturas no local e usá-las como variáveis dependentes em regressões lineares simples, usando as medidas disponíveis na estação como variáveis independentes. Isso funciona razoavelmente bem (R2> 0,50 com 2 preditores), mas parece simplista demais por várias razões, e imagino que deve haver maneiras mais sofisticadas (e poderosas) de fazer isso.
Por um lado, não estou fazendo nada explícito sobre a natureza das séries temporais dos valores diários na regressão e, embora a temperatura mínima ou média de um dia para o outro possa não estar tão correlacionada quanto de uma hora para a em seguida, me pergunto sobre problemas com a independência desses dados diários (ou certamente de hora em hora, se eu estava tentando prever temperaturas de hora em hora). Segundo, devido à preocupação de ter várias medições de temperatura um pouco correlacionadas em todo o site (elas são muito mais semelhantes entre si do que as dos dados das estações meteorológicas), estou simplesmente usando a média, o mínimo ou o máximo de todas as medições no site , versus a inclusão direta dos dados de cada local de medição individual. Mas isso também me impede de usar as informações auxiliares invariantes no tempo de cada local de medição de temperatura (inclinação, elevação, aspecto, cobertura do dossel), o que presumivelmente explicará boa parte das diferenças de temperatura entre os locais do local. Terceiro, devido a preocupações com a regressão sendo dominada pelo ciclo diurno muito forte nas temperaturas, estou apenas olhando para os valores diários em vez de a cada hora.
Todas as sugestões sobre melhores maneiras de fazer isso (especialmente em R), ou por onde começar a procurar, serão muito apreciadas! Percebo que existem muitos pacotes R que lidam com séries temporais, mas estou tendo problemas para encontrar o melhor lugar para começar com esse tipo de problema, pois nenhum dos exemplos que vi realmente parece refletir a situação em que estou. tentando modelar aqui.
Atualização: pensando um pouco mais sobre isso, não está claro para mim se os modelos de séries temporais são realmente apropriados aqui, porque não estou interessado em prever o que acontecerá em algum momento específico futuro. Em vez disso, estou simplesmente interessado em como as temperaturas no local estão relacionadas às temperaturas (e outras variáveis ambientais) na estação meteorológica. Eu pensei que talvez a análise de séries temporais fosse valiosa porque eu estava preocupada que as medições subsequentes de temperatura não fossem suficientemente independentes. Certamente, a temperatura de uma hora depende muito da hora anterior, mas a dependência é mais fraca para os dados diários. Em ambos os casos, a correlação temporal / não independência dos dados de séries temporais é uma preocupação válida que deve ser tratada se alguém não estiver interessado em uma previsão de séries temporais?