Como modelar dados de temperatura de séries temporais em vários locais em função dos dados em um local?

8

Eu sou novo na análise de séries temporais e gostaria de receber sugestões sobre a melhor forma de abordar o seguinte problema de regressão de séries temporais: tenho medições de temperatura por hora em aproximadamente 20 locais em um local ao longo de três anos, juntamente com informações auxiliares estáticas (inclinação, elevação, aspecto, cobertura do dossel). O local possui vários hectares e os dispositivos de registro de temperatura estão espalhados pelo local ao longo de duas transectas, a intervalos de ~ 20-50 m. A cerca de 1 km, tenho dados horários de uma estação meteorológica, que também fornece medições da velocidade do vento, direção do vento, umidade, iluminação solar, etc.

Eu gostaria de poder prever a temperatura (mín., Máx., Média) no local (em geral) usando apenas os dados da estação meteorológica; está no lugar semi-permanentemente, enquanto os registradores de temperatura no local só estavam presentes por 3 anos. Portanto, em essência, tenho várias variáveis independentes (temperatura, umidade, vento, etc.) em um local (a estação meteorológica), mas uma única variável dependente (temperatura) em vários locais, cada uma das quais também possui vários atributos invariantes no tempo: inclinação, elevação, aspecto, etc.

Estou mais interessado em prever os mínimos e máximos diários no local em geral, em vez das temperaturas horárias em cada local de gravação de temperatura no local. Embora essas previsões horárias certamente tenham valor.

Minha abordagem inicial foi calcular as médias diárias, mínimas e máximas das temperaturas no local e usá-las como variáveis dependentes em regressões lineares simples, usando as medidas disponíveis na estação como variáveis independentes. Isso funciona razoavelmente bem (R2> 0,50 com 2 preditores), mas parece simplista demais por várias razões, e imagino que deve haver maneiras mais sofisticadas (e poderosas) de fazer isso.

Por um lado, não estou fazendo nada explícito sobre a natureza das séries temporais dos valores diários na regressão e, embora a temperatura mínima ou média de um dia para o outro possa não estar tão correlacionada quanto de uma hora para a em seguida, me pergunto sobre problemas com a independência desses dados diários (ou certamente de hora em hora, se eu estava tentando prever temperaturas de hora em hora). Segundo, devido à preocupação de ter várias medições de temperatura um pouco correlacionadas em todo o site (elas são muito mais semelhantes entre si do que as dos dados das estações meteorológicas), estou simplesmente usando a média, o mínimo ou o máximo de todas as medições no site , versus a inclusão direta dos dados de cada local de medição individual. Mas isso também me impede de usar as informações auxiliares invariantes no tempo de cada local de medição de temperatura (inclinação, elevação, aspecto, cobertura do dossel), o que presumivelmente explicará boa parte das diferenças de temperatura entre os locais do local. Terceiro, devido a preocupações com a regressão sendo dominada pelo ciclo diurno muito forte nas temperaturas, estou apenas olhando para os valores diários em vez de a cada hora.

Todas as sugestões sobre melhores maneiras de fazer isso (especialmente em R), ou por onde começar a procurar, serão muito apreciadas! Percebo que existem muitos pacotes R que lidam com séries temporais, mas estou tendo problemas para encontrar o melhor lugar para começar com esse tipo de problema, pois nenhum dos exemplos que vi realmente parece refletir a situação em que estou. tentando modelar aqui.

Atualização: pensando um pouco mais sobre isso, não está claro para mim se os modelos de séries temporais são realmente apropriados aqui, porque não estou interessado em prever o que acontecerá em algum momento específico futuro. Em vez disso, estou simplesmente interessado em como as temperaturas no local estão relacionadas às temperaturas (e outras variáveis ambientais) na estação meteorológica. Eu pensei que talvez a análise de séries temporais fosse valiosa porque eu estava preocupada que as medições subsequentes de temperatura não fossem suficientemente independentes. Certamente, a temperatura de uma hora depende muito da hora anterior, mas a dependência é mais fraca para os dados diários. Em ambos os casos, a correlação temporal / não independência dos dados de séries temporais é uma preocupação válida que deve ser tratada se alguém não estiver interessado em uma previsão de séries temporais?

Eu teria sugerido algo ao longo dos processos pontuais . Mas eu não sei como fazê-lo exatamente, você pode olhar para esta tese para algumas idéias ...

— Teucer

1

Você pode examinar o pacote GAM no R, pois ele pode ser adaptado para fazer parte (ou tudo) do que você está procurando. O artigo original ( Hastie & Tibshirani, 1986 ) está disponível via OpenAccess, se você quiser lê-lo.

Essencialmente, você modela uma única variável dependente como uma combinação aditiva de preditores 'suaves'. Um dos usos típicos é ter séries temporais e atrasos como preditores, suavizar essas entradas e aplicar o GAM.

Este método tem sido amplamente utilizado para estimar a mortalidade diária em função de séries temporais ambientais suavizadas, especialmente poluentes. Não é o OpenAccess, mas ( Dominici et al., 2000 ) é uma excelente referência e ( Métodos estatísticos para epidemiologia ambiental com R ) é um excelente livro sobre como usar R para fazer esse tipo de análise.

— Wesley Burr
fonte

0

Se você deseja ou não prever ou não tem nada a ver com a análise correta de séries temporais. Os métodos de séries temporais podem desenvolver um modelo robusto que pode ser usado simplesmente para caracterizar o relacionamento entre uma série dependente e um conjunto de entradas sugeridas pelo usuário (também conhecidas como séries de preditores especificadas pelo usuário) e variáveis omitidas empiricamente identificadas, sejam determinísticas ou estocásticas. sua opção pode então estender o "sinal" para o futuro, ou seja, prever com incertezas com base na incerteza nos coeficientes e na incerteza nos valores futuros do preditor. Agora, esses dois tipos de "séries omitidas" empiricamente identificadas podem ser classificados como 1) determinístico e 2) estocástico. O primeiro tipo são simplesmente pulsos, mudanças de nível, Pulsos sazonais e tendências de hora local, enquanto o segundo tipo é representado pela parte ARIMA do seu modelo final. Quando se omite uma ou mais séries estocásticas da lista de possíveis preditores, a omissão é caracterizada pelo componente ARIMA no seu modelo final. Os modeladores de séries temporais se referem aos modelos ARIMA como um "Modelo de Regressão do Homem Pobre", porque o passado da série está sendo usado como proxy para séries de entradas estocásticas omitidas.

— IrishStat
fonte