As séries temporais curtas valem a pena ser modeladas?


14

Aqui está algum contexto. Estou interessado em determinar como duas variáveis ​​ambientais (temperatura, níveis de nutrientes) afetam o valor médio de uma variável de resposta em um período de 11 anos. A cada ano, existem dados de mais de 100 mil locais.

O objetivo é determinar se, durante o período de 11 anos, o valor médio das variáveis ​​de resposta respondeu a mudanças nas variáveis ​​ambientais (por exemplo, temperatura mais quente + mais nutrientes seriam = maior resposta).

Infelizmente, como a resposta é o valor médio (sem olhar para a média, apenas uma variação inter-anual regular irá inundar o sinal), a regressão será de 11 pontos de dados (1 valor médio por ano), com 2 variáveis ​​explicativas. Para mim, mesmo uma regressão linear positiva será difícil de considerar significativa, uma vez que o conjunto de dados é tão pequeno (nem sequer atende aos 40 pontos / variáveis ​​nominais, a menos que o relacionamento seja super forte).

Estou certo em fazer essa suposição? Alguém pode oferecer outros pensamentos / perspectivas que eu possa estar perdendo?

PS: Algumas advertências: não há como obter mais dados sem esperar mais anos. Portanto, os dados disponíveis são com o que realmente precisamos trabalhar.


Você já tentou plotar os dados? Eu diria que a força da correlação entre suas variáveis ​​ambientais e sua variável de resposta afetará a resposta.
Rm999

" Em cada ano, existem dados de mais de 100 mil locais. " Você realmente observa todos os locais ou apenas o valor médio com base neles? Se sim, você pode optar por modelos de dados em painel, como @crayola sugerido em contexto linear. Embora alguns modelos ecológicos especiais mencionados pelo @GaBorgulya possam exigir muito menos informações para os parâmetros calibrarem, em vez de estimar.
Dmitrij Celov 07/04

Respostas:


8

O pequeno número de pontos de dados limita os tipos de modelos que você pode ajustar nos seus dados. No entanto, isso não significa necessariamente que não faria sentido começar a modelar. Com poucos dados, você só poderá detectar associações se os efeitos forem fortes e a dispersão for fraca.

Outra pergunta é: que tipo de modelo combina com seus dados. Você usou a palavra 'regressão' no título. O modelo deve refletir, até certo ponto, o que você sabe sobre o fenômeno. Esse parece ser um cenário ecológico; portanto, o ano anterior também pode ser influente.


4

Já vi conjuntos de dados ecológicos com menos de 11 pontos; portanto, se você for muito cuidadoso, poderá tirar algumas conclusões limitadas com seus dados limitados.

Você também pode fazer uma análise de poder para determinar o tamanho pequeno que pode detectar, considerando os parâmetros do seu projeto experimental.

Você também pode não precisar jogar fora a variação extra por ano se fizer uma análise cuidadosa



4

A modelagem dos dados fundamentalmente (especialmente para séries temporais) pressupõe que você coletou dados com uma frequência suficiente para capturar os fenômenos de interesse. O exemplo mais simples é para uma onda senoidal - se você estiver coletando dados com uma frequência de n * pi onde n é um número inteiro, você não verá nada além de zeros e perderá o padrão sinusoidal por completo. Existem artigos sobre a teoria da amostragem que discutem com que frequência os dados devem ser coletados.


3

Não sei se entendi o seguinte: "Infelizmente, como a resposta é o valor médio (sem olhar para a média, apenas variações inter-anuais regulares irão inundar o sinal)"

Com uma modelagem cuidadosa, parece-me que você poderia ganhar muito modelando isso como dados de painel. Dependendo do escopo espacial dos seus dados, pode haver grandes diferenças nas temperaturas às quais seus pontos de dados foram expostos em um determinado ano. A média de todas essas variações parece cara.


3

Eu diria que a validade do teste tem menos a ver com o número de pontos de dados e mais a ver com a validade da suposição de que você tem o modelo correto.

Por exemplo, a análise de regressão usada para gerar uma curva padrão pode ser baseada em apenas três padrões (baixo, médio e alto), mas o resultado é altamente válido, pois há fortes evidências de que a resposta é linear entre os pontos.

Por outro lado, mesmo uma regressão com milhares de pontos de dados será falha se o modelo errado for aplicado aos dados.

No primeiro caso, qualquer variação entre as previsões do modelo e os dados reais é devido a erro aleatório. No segundo caso, parte da variação entre as previsões do modelo e os dados reais se deve ao viés da escolha do modelo errado.


1

O número necessário de observações para identificar um modelo depende da razão entre sinal e ruído nos dados e a forma do modelo. Se eu receber os números 1,2,3,4,5, irei prever 6,7,8, .... A identificação do modelo Box-Jenkins é uma abordagem para determinar o Termo Geral subjacente, bem como o teste para " inteligência numérica "que damos às crianças. Se o sinal é forte, precisamos de menos observações e vice-versa. Se a frequência observada sugere uma possível "estrutura sazonal", precisamos de repetições desses fenômenos, por exemplo, pelo menos 3 temporadas (de preferência mais) como regra geral para extrair (identifique isso a partir das estatísticas descritivas básicas (acf / pacf).


-1

Talvez você possa tentar lidar com suas séries temporais como um sistema de equações lineares e resolvê-lo através da eliminação de Gauss. Obviamente, nesse caso, você se restringe aos dados disponíveis, mas esse é o único preço que você deve pagar.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.