Que modelo para um conjunto de dados desafiador? (centenas de séries temporais com muitos aninhamentos)

Eu tenho um conjunto de dados bastante complicado para analisar e não consigo encontrar uma boa solução para isso.

É o seguinte:

1. os dados brutos são essencialmente gravações de canções de insetos. Cada música é composta de várias explosões e cada explosão é composta por subunidades. Todos os indivíduos foram gravados por 5 minutos. O número de rajadas e sua posição na gravação podem ser muito diferentes entre os indivíduos, bem como o número de subunidades por rajada.

2. Eu tenho a frequência portadora (frequência fundamental) de cada sub-unidade, e é isso que eu quero analisar.

Meus problemas:

1. As frequências dentro de uma rajada não são independentes, obviamente (embora seja bastante estável, mas a frequência da subunidade n-1 terá influência na subunidade n).

2. As explosões também não são independentes, dentro de uma gravação.

3. Eles são ainda menos independentes à medida que a frequência diminui com o tempo (o indivíduo se cansa de cantar, de modo que a frequência da música diminui e diminui). A queda parece ser linear.

4. Aninhamento = Eu tenho 3 populações replicadas para dois locais A e B. Então, eu tenho A1, A2, A3 e B1, B2, B3.

O que eu gostaria de fazer:

1. Caracterize a diferença de frequência entre meus dois locais (teste estatisticamente)

2. Caracterize a frequência que cai entre os dois locais (veja se ele cai mais rapidamente em um deles)

Como fazer isso:

Bem, é por isso que preciso de ajuda: não sei. Parece que meu caso combina problemas que geralmente não são vistos juntos. Eu li sobre modelos mistos, sobre GAM, sobre ARIMA, efeitos aleatórios e fixos, mas não posso ter certeza da melhor maneira de fazê-lo. Porém, quando eu o gráfico (frequência ~ número da subunidade n ), a diferença é muito clara entre os dois locais. Também tenho que levar em consideração outras variáveis, como a temperatura (aumenta a frequência), etc.

Eu pensei sobre:

Aninhando os indivíduos na replicação de onde são e aninhe a replicação no local (indivíduo / replicação / local).
Use um efeito aleatório de 'burst', para levar em consideração a variabilidade dentro de cada burst.
Use um efeito fixo de 'posição de arrebentamento na gravação' para medir a queda de frequência (esperando que seja realmente linear).

Seria correto?

Existe um tipo especial de modelo que eu poderia usar para esse tipo de cenário?

— Joe
fonte

Bem-vindo a este site, Joe. Não há necessidade de sinal em seu post, o seu nome aparece sempre sob o seu gravatar :)

— chl

Ok, e obrigado! É um site muito bom, muito bem feito.

— Joe

“Aninhar os indivíduos na replicação de onde são e aninhar a replicação no local (indivíduo / replicar / local)” soa como uma boa ideia, se comparado aos formulários não aninhados. Como é um LOESS de suas seis subpopulações?

— pe.

Muito obrigado por suas respostas, realmente gostei. Bem, demorei muito tempo, mas consegui analisar esse conjunto de dados (sangrento). Eu era muito ambicioso, eu acho, querendo modelar tudo ao mesmo tempo. Então, eu dividi o trabalho em vários modelos, para cada problema (diferença de frequência média, aumento de frequência etc.). Conclusão: às vezes é melhor dividir o trabalho!

— Joe

Estas são apenas algumas sugestões gerais que você pode achar úteis, mais um roteiro do que uma receita.

Meu instinto seria construir um modelo hierárquico bayesiano, porque ele se presta ao desenvolvimento de modelos iterativos - acho que você não encontrará um modelo existente que possua todos os sinos e assobios que você procura. Mas isso dificulta o teste de hipóteses, não sei o quão necessário é o teste de hipóteses para você.
Parece que você tem um pequeno modelo informal na cabeça sobre como os insetos se comportam; você diz coisas como "ficar cansado" e sabe que a temperatura aumenta a frequência, provavelmente porque o animal tem mais energia. Parece que você tem um pequeno modelo generativo em sua mente sobre como os insetos fazem suas músicas.
O problema parece muito complexo para modelar "de uma só vez". Eu acho que você terá que construir algo fragmentado. Eu começaria com algumas "fortes suposições simplificadoras" - ou seja, jogue fora a maior parte da complexidade do conjunto de dados, com um plano para adicioná-lo mais tarde, depois que você tiver um modelo simples que funcione.

Então, para começar, eu faria algo como pré-processar as frequências das sub-unidades em uma base explosão a explosão em algo como um par (frequência média, tendência de frequência) - faça isso com o OLS e modele apenas a média e a tendência da frequência uma explosão e não as próprias subunidades. Ou você pode fazer (média, tendência, número de subunidades), se o número de subunidades estiver relacionado ao grau de cansaço do inseto. Em seguida, construa um modelo hierárquico bayesiano em que a distribuição da média e da tendência de uma explosão seja determinada pela média, tendência da gravação, e isso, por sua vez, é determinado pela tendência média da localização.

Em seguida, adicione a temperatura como um fator para a média / tendência de gravação.

Esse modelo simples deve permitir que você veja a média e a tendência das explosões individuais em uma gravação, conforme determinado pela temperatura e pelo local. Tente fazer com que isso funcione.

Depois, tentaria estimar a diferença entre a frequência média das explosões (ou tendência, dividindo o tempo de silêncio entre as explosões) adicionando-a como uma variável determinada pela localização e pela gravação. O próximo passo é um modelo de RA da média de rajada dentro de uma gravação.

Dadas algumas anteriores e algumas suposições muito fortes sobre a natureza das explosões (que todas as informações são fornecidas por média e tendência), este modelo básico informará:

como é a frequência média de uma explosão local diferente por local e temperatura por temperatura
como a tendência dentro da explosão é local diferente por local e temperatura por temperatura
como a tendência de explosão externa é local diferente por local e temperatura por temperatura

Depois que você tiver algo assim para funcionar, talvez seja hora de modelar as próprias subunidades e jogar fora a estimativa original do OLS. Eu examinaria os dados neste momento para ter uma idéia de que tipo de modelo de série temporal poderia se encaixar e modelar os parâmetros do modelo de série temporal em vez de pares (média, tendência).

— Patrick Caldon
fonte