Lassoing a ordem de um atraso?


9

Suponha que eu tenha dados longitudinais da forma (eu tenho várias observações, essa é apenas a forma de uma única). Estou interessado em restrições sobre Σ . Um irrestrita Σ é equivalente a Y j = α j + j - 1 Σ= 1 & Phi; j Y j - + ε jY=(Y1,,YJ)N(μ,Σ)ΣΣ

Yj=αj+=1j1ϕjYj+εj
com .εjN(0,σj)

Isto geralmente não é feito, uma vez que requer a estimativa os parâmetros de covariância. Um modelo é "lag- k " se tomarmos Y j = α j + k Σ= 1 & Phi; j Y j - + ε j , ou seja, só usamos os anteriores k termos de prever Y j a partir da história.O(J2)k

Yj=αj+=1kϕjYj+εj,
kYj

O que eu realmente gostaria de fazer é usar algum tipo de ideia encolhimento a zero fora algum do , como o laço. Mas a coisa é, eu também gostaria que o método que eu uso a preferir modelos que são lag- k para alguns k ; Eu gostaria de penalizar as defasagens de ordem superior mais do que as de ordem inferior. Eu acho que isso é algo que gostaríamos de fazer particularmente, uma vez que os preditores são altamente correlacionados.ϕjkk

Uma questão adicional é que, se (digamos) for reduzido para 0, eu também gostaria que ϕ 36 seja reduzido para 0 , ou seja, o mesmo atraso é usado em todas as distribuições condicionais.ϕ350ϕ360

L0

Respostas:


2

Você pode fazer a validação cruzada repetidamente de k = 0 até o valor máximo e plotar o desempenho em relação a k. Como o modelo está sendo testado com dados que não havia visto antes, não há garantia de que os modelos complexos terão um desempenho melhor e, na verdade, você deverá observar uma degradação no desempenho se o modelo se tornar muito complexo devido a ajustes excessivos. Pessoalmente, acho que isso é mais seguro e fácil de justificar do que ter um fator de penalidade arbitrário, mas sua milhagem pode variar.

ϕlj


Para adicionar o LaTeX à sua pergunta, coloque a expressão entre cifrões ($).
Patrick Coulombe

1
Yj2YjYj1

(2) Geralmente, eu não usaria essa estratégia de CV pelo menos parcialmente porque é muito dogmática. Eu posso obter melhores previsões diminuindo criteriosamente um atraso, em vez de jogá-lo totalmente fora.
cara

Nir, um comentário útil sobre o LASSO encomendado. Editei minha resposta para ser um pouco mais abrangente. Obrigado!
23813 Sean Easter

Obrigado Sean. Cara, eu não acho isso muito dogmático. Você não está colocando pedra em pedra, mas permitindo que ela varie. O k escolhido será no início do ajuste excessivo. Também discordo totalmente da sua afirmação de suposto conhecimento a priori. Algo parecendo razoável e sabendo que isso é completamente diferente. Devo admitir que parece haver uma resistência nas estatísticas tradicionais para cruzar a validação que eu nunca entendi. Eu escolheria a eficiência preditiva nos dados fora da amostra em vez de adicionar suposições a qualquer dia.
Nir Friedman

2

β1...j|β1||β2|...|βj|

Isso atinge o segundo objetivo de zerar os coeficientes para atrasos de ordem superior, mas é mais restritivo do que a única restrição de se preferir um modelo de menor atraso. E, como outros apontam, essa é uma restrição pesada que pode ser muito difícil de justificar.

Tendo dispensado as ressalvas, o artigo apresenta os resultados do método em dados de séries temporais reais e simulados e detalha algoritmos para encontrar os coeficientes. A conclusão menciona um pacote R, mas o artigo é bastante recente e uma pesquisa no CRAN por "LASSO ordenado" aparece vazia, então eu suspeito que o pacote ainda esteja em desenvolvimento.

O artigo também oferece uma abordagem generalizada na qual dois parâmetros de regularização "incentivam a quase monotonicidade". (Veja a p. 6.) Em outras palavras, deve-se conseguir ajustar os parâmetros para permitir uma ordem mais relaxada. Infelizmente, nem exemplos nem comparações do método relaxado são fornecidos. Mas, os autores escrevem que implementar essa alteração é uma simples questão de substituir um algoritmo por outro, portanto, espera-se que faça parte do próximo pacote R.


Obrigado, é realmente interessante que essa seja uma ideia recente. Na verdade, tive a mesma idéia de discutir o problema com um amigo quando fiz a pergunta há 9 meses, mas nunca a investiguei em profundidade! Eu apenas assumi que a idéia não era essa novela, ou que alguém já havia escrito um artigo sobre ela.
cara

Bem vindo! Fiquei surpreso que fosse tão recente.
Sean Easter

1

A penalidade aninhada do LASSO ( pdf ) pode ser empregada, mas não há pacotes R para ela.


1
No momento, isso é mais um comentário do que uma resposta. Você pode expandi-lo um pouco, talvez discutindo a penalidade aninhada do LASSO, etc.?
gung - Restabelece Monica

0

Eu sei que você o escreveu como premissa, mas eu não usaria o LASSO ordenado sem ter certeza absoluta de que isso é necessário, porque as suposições do LASSO ordenado não são diretamente apropriadas para a previsão de séries temporais. Como um contra-exemplo, considere o caso em que você tem um atraso de, digamos, dez intervalos de tempo entre a medição e o alvo. Obviamente, as restrições ordenadas do LASSO não podem lidar com esses efeitos sem atribuir bobagens aos nove primeiros parâmetros.

λλλ=0

λ


Obviamente, eu não estaria interessado em restrições na ordem dos coeficientes se não tivesse fortes razões a priori para acreditar. Para os modelos que eu suspeito serem prováveis, heuristicamente o LASSO solicitado deve ser mais eficiente. Ter um coeficiente lag-10 com os outros 9 sendo 0 não faz sentido no meu cenário substantivo . Este é um problema no qual meus colegas trabalharam (retração ordenada com base nas defasagens), mas eles usaram as idéias Bayesuanas e, portanto, não considerariam um LASSO (não Bayesiano).
cara

Ok, você parece saber o que faz. Mas lembre-se de que o LASSO ordenado é mais fortemente restringido do que a sua declaração "uma vez zero - sempre zero". Como alternativa, você também pode considerar um modelo em que os parâmetros entram de forma multiplicativa. Então, a importância relativa pode crescer ou diminuir até que um coeficiente se torne zero.
Davidhigh
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.