Em geral, acho que é mais proveitoso cientificamente e estatisticamente começar com uma pergunta mais ampla e diferente, que é até que ponto uma resposta pode ser prevista a partir de um preditor circular. Digo aqui circular, em vez de direcional , em parte porque o último inclui espaços esféricos e ainda mais fabulosos, que nem todos podem ser abordados em uma única resposta; e em parte porque seus exemplos, hora do dia e época do ano , são circulares. Outro exemplo importante é a direção da bússola (relevante para ventos, movimentos de animais ou humanos, alinhamentos etc.), que aparece em muitos problemas circulares: de fato, para alguns cientistas, é um ponto de partida mais óbvio.
Sempre que você pode se safar, usar as funções de tempo seno e cosseno em algum tipo de modelo de regressão é um método de modelagem simples e fácil de implementar. É o primeiro porto de escala para muitos exemplos biológicos e / ou ambientais. (Os dois tipos geralmente são misturados, porque os fenômenos bióticos que mostram a sazonalidade geralmente respondem direta ou indiretamente ao clima ou ao clima.)
Para concretude, imagine medições de tempo superiores a 24 horas ou 12 meses, de modo que, por exemplo,
sin[2π(hour/24)], cos[2π(hour/24)]
sin[2π(month/12)], cos[2π(month/12)]
cada um descreve um ciclo durante todo o dia ou ano. Um teste formal de não haver relação entre uma resposta medida ou contada e algum tempo circular seria, então, um teste padrão para determinar se os coeficientes de seno e cosseno são conjuntamente zero em um modelo linear generalizado com seno e cosseno como preditores, um vínculo e uma família adequados sendo escolhido de acordo com a natureza da resposta.
A questão da distribuição marginal da resposta (normal ou outra) é nesta abordagem secundária e / ou deve ser tratada pela escolha da família.
O mérito dos senos e cossenos é naturalmente que eles são periódicos e se envolvem automaticamente, de modo que os valores no início e no final de cada dia ou ano são necessariamente um e o mesmo. Não há problema com condições de contorno, porque não há limites.
Essa abordagem foi denominada regressão circular, periódica, trigonométrica e de Fourier. Para uma revisão tutorial introdutória, veja aqui
Na prática,
Esses testes geralmente mostram resultados extremamente significativos nos níveis convencionais sempre que esperamos sazonalidade. A questão mais interessante é então a curva sazonal precisa estimada, e se precisamos de um modelo mais complicado com outros termos senoidais também.
Nada exclui outros preditores também; nesse caso, simplesmente precisamos de modelos mais abrangentes com outros preditores incluídos, como seno e cosseno para sazonalidade e outros preditores para todo o resto.
Em algum momento, dependendo em conjunto dos dados, do problema, dos gostos e da experiência do pesquisador, pode ser mais natural enfatizar o aspecto da série temporal do problema e criar um modelo com dependência de tempo explícita. De fato, algumas pessoas estatisticamente negadas negariam a existência de outra maneira de abordá-lo.
O que é facilmente nomeado como tendência (mas nem sempre é tão facilmente identificável) se enquadra em # 2 ou # 3, ou mesmo em ambos.
Muitos economistas e outros cientistas sociais preocupados com a sazonalidade nos mercados, economias nacionais e internacionais ou outros fenômenos humanos geralmente ficam mais impressionados com as possibilidades de variabilidade mais complicada a cada dia ou (mais comumente) ano. Freqüentemente, embora nem sempre, a sazonalidade é um incômodo a ser removido ou ajustado, em contraste com os cientistas biológicos e ambientais que freqüentemente consideram a sazonalidade interessante e importante, mesmo o foco principal de um projeto. Dito isto, economistas e outros também também adotam uma abordagem do tipo regressão, mas com munição um conjunto de variáveis indicadoras (fictícias), mais simplesmente variáveis para cada mês ou cada trimestre do ano0,1. Essa pode ser uma maneira prática de tentar captar os efeitos de feriados nomeados, períodos de férias, efeitos colaterais dos anos escolares etc., bem como influências ou choques de origem climática ou climática. Com essas diferenças observadas, a maioria dos comentários acima também se aplica às ciências econômicas e sociais.
Atitudes e abordagens de epidemiologistas e estatísticos médicos preocupados com variações na morbidade, mortalidade, internações hospitalares, visitas a clínicas e afins tendem a ficar entre esses dois extremos.
Na minha opinião, dividir dias ou anos em duas partes para comparar é geralmente arbitrário, artificial e, na melhor das hipóteses, estranho. Também está ignorando o tipo de estrutura suave normalmente presente nos dados.
EDITAR A conta até agora não aborda a diferença entre tempo discreto e tempo contínuo, mas, por minha experiência, não considero isso um grande problema na prática.
Mas escolhas precisas dependem de como os dados chegam e do padrão de mudança.
Se os dados fossem trimestrais e humanos, eu tenderia a usar variáveis indicadoras (por exemplo, os trimestres 3 e 4 geralmente são diferentes). Se mensal e humana, a escolha não é clara, mas você teria que trabalhar duro para vender seno e cosseno para a maioria dos economistas. Se mensal ou mais fino e biológico ou ambiental, definitivamente seno e cosseno.
EDIT 2 Mais detalhes sobre regressão trigonométrica
Um detalhe distintivo da regressão trigonométrica (nomeada de qualquer outra maneira, se você preferir) é que quase sempre os termos seno e cosseno são melhor apresentados a um modelo em pares. Escalamos primeiro a hora do dia, a hora do ano ou a direção da bússola, para que ela seja representada como um ângulo no círculo
em radianos, portanto no intervalo . Em seguida, usamos quantos pares são necessários em um modelo. (Nas estatísticas circulares, as convenções trigonométricas tendem a superar as convenções estatísticas, de modo que símbolos gregos como são usados para variáveis e parâmetros.)θ[0,2π]sinkθ,coskθ,k=1,2,3,…θ,ϕ,ψ
Se oferecermos um par de preditores como para um modelo semelhante a regressão, teremos estimativas de coeficiente, digamos , para termos no modelo, a saber . Esta é uma maneira de ajustar a fase, bem como a amplitude de um sinal periódico. Em outras palavras, uma função como pode ser reescrita comosinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)
sinθcosϕ+cosθsinϕ,
mas e representando a fase são estimados no ajuste do modelo. Dessa forma, evitamos um problema de estimativa não linear.sin φcosϕsinϕ
Se usarmos para modelar a variação circular, automaticamente o máximo e o mínimo dessa curva estarão separados por meio círculo. Essa geralmente é uma aproximação muito boa para variações biológicas ou ambientais, mas, inversamente, podemos precisar de vários outros termos para capturar a sazonalidade econômica em particular. Essa poderia ser uma boa razão para usar variáveis indicadoras, o que leva imediatamente a interpretações simples dos coeficientes.b1sinθ+b2cosθ