AIC e regressão de crista podem ser compatíveis quando certas suposições são feitas. No entanto, não existe um método único de escolher um encolhimento para a regressão da crista, portanto, não existe um método geral de aplicar o AIC a ele. A regressão de Ridge é um subconjunto da regularização de Tikhonov . Existem muitos critérios que podem ser aplicados à seleção de fatores de suavização para a regularização de Tikhonov, por exemplo, veja isso . Para usar a AIC nesse contexto, existe um artigo que faz suposições bastante específicas sobre como executar essa regularização, seleção de parâmetros de regularização baseada na complexidade da informação para solução de problemas inversos mal condicionados . Especificamente, isso pressupõe
"Em uma estrutura estatística, ... escolhendo o valor do parâmetro de regularização α e usando o método da máxima verossimilização penalizada (MPL) ... Se considerarmos o ruído gaussiano não correlacionado com variação σ2 e usar a penalidade p(x)= uma norma complicada, veja o link acima , a solução MPL é a mesma que a solução regularizada de Tikhonov (1963). "
A questão então se torna: essas suposições devem ser feitas? A questão dos graus de liberdade necessários é secundária à questão de saber se a AIC e a regressão de crista são ou não usadas em um contexto consistente. Eu sugeriria a leitura do link para obter detalhes. Não estou evitando a pergunta, é apenas que se pode usar muitas coisas como alvos de crista, por exemplo, se pode usar o fator de suavização que otimiza a própria AIC . Portanto, uma boa pergunta merece outra: "Por que se preocupar com a AIC em um contexto de cordilheira?" Em alguns contextos de regressão, é difícil ver como a AIC pode ser relevante. Por exemplo, a regressão de crista foi aplicada para minimizar a propagação de erro relativo de b , ou seja, min [SD(b)b] da distribuição gama (GD) dada por
GD(t;a,b)=1te−bt(bt)aΓ(a);t≥0,
conforme este trabalho . Em particular, esta dificuldade surge porque, em que o papel, isto é, com efeito, a uma rea L nder a [0,∞) tempo C urve (AUC) que é optimizada, e não a probabilidade máxima (ML) de qualidade de ajuste entre medido [t1,tn]amostras de tempo. Para ser claro, isso é feito porque a AUC é uma integral incorreta e, caso contrário, por exemplo, usando ML, o ajuste da distribuição gama careceria de robustez. Assim, para essa aplicação específica, a probabilidade máxima, portanto, a AIC, é realmente irrelevante. (Diz-se que o AIC é usado para previsão e o BIC para ajuste de qualidade. No entanto, a previsão e o ajuste de qualidade estão ambos apenas indiretamente relacionados a uma medida robusta da AUC.)
dfλdf=pλ=0df=0λ=∞dfdf as the smoothing factor increases to ∞. Note that for infinite smoothing the fit is a flat line irrespective of what density function is being fit. Finally, that the exact number of df is a function.
"One can show that
dfridge=∑(λi/(λi+λ ),
where {λi} are the eigenvalues of XTX." Interestingly, that same reference defines df as the trace of the hat matrix, see def.