Seleção de spline df em um problema geral de modelo de Poisson aditivo

9

Venho ajustando alguns dados de séries temporais usando um modelo aditivo geral de Poisson usando SAS PROC GAM. De um modo geral, estou fazendo com que seu procedimento de validação cruzada generalizada interno gere pelo menos um "ponto de partida" decente para o meu spline único, que é uma função não linear do tempo junto com um único termo paramétrico (o que eu estou realmente interessado em).

Até o momento, funcionou bastante, com exceção de um dos meus conjuntos de dados. Existem 132 observações nesse conjunto de dados e o GCV sugere uma spline de 128 graus de liberdade. Isso parece ... errado. Muito errado. Mais importante, também não é de todo estável. Tentei uma segunda abordagem, usando algo como um critério "Mudança na estimativa" para parar de adicionar graus de liberdade quando a estimativa do termo paramétrico para de mudar porque por que continuar a adicionar controle se nada é diferente?

O problema é que a estimativa não é de todo estável. Tentei os seguintes graus de liberdade e, como você pode ver, o termo paramétrico ricocheteia descontroladamente:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

Não tenho intuição alguma sobre o que devo usar em termos de df para esse bit específico de dados. Alguma outra idéia de como escolher um df? Devo estar olhando para o significado do spline?

Observando um pouco mais entre df = 10 e df = 15, parece que df = 12 é o mais próximo que você pode chegar da estimativa gerada por 128 e ainda está na faixa de "graus razoáveis de liberdade". Junto com o termo linear, o intercepto e o termo paramétrico único, parece um modelo bastante saturado. É justificável apenas ir com 12?

Como uma segunda atualização, alterar a suavização de spline(t)para loess(t)está resultando em estimativas de df muito mais bem comportadas - devo mudar apenas para suavizar a perda?

— Fomite
fonte

No seu conjunto de dados com 132 observações, existe um termo associado de contagem e deslocamento, o que implica que na verdade é um conjunto de dados ponderado com muito mais que 132 observações? Devido à relação de variação média nos RVs de Poisson, grandes contagens podem levar a propriedades de "seleção de modelo" que são desfavoráveis devido ao "grande tamanho da amostra".

— AdamO

O conjunto de dados é de 132 semanas de dados, modelado como contagens = termos do modelo + log (tempo da pessoa) como um deslocamento. As contagens nunca são particularmente altas - mas há um número razoável de zeros.

— Fomite

5

$\lambda$ $\lambda$ $\lambda$

Wood (2011) também ilustra que o AICc não oferece muitos benefícios adicionais sobre o GCV para bases de classificação baixa a intermediária usadas para as funções suaves.

$\lambda$

Wood (2011) descreve os procedimentos de estimativa de REML e ML que são rápidos e estáveis, o que ele mostra aprimora as abordagens existentes de REML (ML) em termos de convergência. Essas idéias estão disponíveis em Simon mgcv pacote para R .

Como Wood (2011) está atrás de um paywall, incluo uma cópia de uma imagem semelhante (os resultados da AICc não são mostrados aqui) tirada de um conjunto de slides de Simon, disponível em seu site , sobre métodos de seleção de suavidade {PDF}. A figura do slide 10 é mostrada abaixo

insira a descrição da imagem aqui

$\lambda$ $\lambda$ $\lambda$

$y = f(x) + \varepsilon$

Como mencionam @ M.Berk e @BrendenDufault, pode ser necessário um grau de subjetividade ao configurar a base do spline, em termos de seleção de uma dimensão de base apropriada a partir da qual o GAM se encaixa. Mas a seleção de suavidade REML se mostrou razoavelmente robusta em minha experiência em uma variedade de aplicativos GAM usando os métodos de Wood.

Wood, SN (2011) Verificação máxima verossimilhança restrita estável rápida e verossimilhança marginal de modelos lineares generalizados semiparamétricos . J. Royal Statistical Society B 73 (Parte 1), 3-6.

— Gavin Simpson
fonte

@EpiGrad Welcome. Desculpe, eu perdi a pergunta na época; Nos últimos dois anos, estive lutando com situações semelhantes às suas e li os artigos de Simon Wood sobre isso e selecionei várias vezes. Ainda bem que pude lembrar alguns detalhes para ajudar.

— Gavin Simpson

3

Eu acho que sua melhor aposta está fora dos algoritmos de suavização; considere a parcimônia do modelo.

Você faz alusão a isso, mas acredito que deve se tornar seu principal critério de seleção. Pergunte a si mesmo quantas "dobras" parecem razoáveis com base na etiologia / causalidade dos processos que estão sendo modelados. Faça um gráfico dos splines ajustados com a plots=components(clm)instrução e avalie visualmente o ajuste. Talvez os splines altos do DF estejam contando uma história semelhante à dos splines baixos do DF, exceto mais ruidosamente. Nesse caso, escolha um ajuste de DF baixo.

Afinal, os modelos GAM devem ser exploratórios.

Tendo usado a opção gcv , eu me pergunto sobre seu desempenho sob condições de Poisson, dados esparsos, etc. Talvez um estudo de simulação seja realizado aqui.

— Brenden Dufault
fonte

2

Digitei a resposta a seguir e depois percebi que não tinha idéia se é aplicável à regressão de Poisson com a qual não tenho experiência. Talvez as pessoas possam responder isso com alguns comentários.

Pessoalmente, gosto do conselho de BW Silverman (1985) "Alguns aspectos da abordagem de suavização de splines para o ajuste não paramétrico da curva de regressão (com discussão)." (Disponível sem assinatura aqui ): experimente uma variedade de parâmetros de suavização e escolha o que for mais atraente visualmente.

Como ele também aponta com razão no mesmo artigo, embora uma abordagem subjetiva possa ser preferida, ainda há a necessidade de métodos automáticos. No entanto, o GCV geralmente é uma má escolha, pois tem uma tendência a ser menos suave. Veja, por exemplo, Hurvich et al (1998) "Suavizando a seleção de parâmetros em regressão não paramétrica usando um critério aprimorado de informações de Akaike" (disponível sem assinatura aqui ). No mesmo artigo, eles propõem um novo critério que pode aliviar o seu problema, o AIC corrigido, que inclui uma pequena correção no tamanho da amostra. Você pode achar a descrição do AICc na Wikipedia mais fácil de seguir do que o artigo. O artigo da Wikipedia também inclui alguns bons conselhos de Burnham & Anderson (por exemplo, use o AICc em vez do AIC, independentemente do tamanho da amostra).

Em resumo, minhas sugestões seriam, em ordem de preferência:

Escolha o parâmetro de suavização manualmente via avaliação visual
Use o AIC corrigido (AICc) em vez do GCV
Use o AIC padrão

— M. Berk
fonte