Como você pode detectar se um processo gaussiano é excessivo?

Estou treinando um processo gaussiano com um kernel ARD com muitos parâmetros, maximizando a confiabilidade marginal dos dados, em vez de validação cruzada.

Suspeito que seja excessivo. Como posso testar essa suspeita em um contexto bayesiano?

machine-learning cross-validation gaussian-process

— nickponline
fonte

A coisa mais simples a fazer seria ajustar um processo gaussiano à função de covariância equivalente não à ARD (geralmente a RBF) e comparar as taxas de erro do teste. Para muitos problemas, uma função de covariância ARD apresenta desempenho pior do que uma função de covariância não ARD, devido ao ajuste excessivo no ajuste dos hiperparâmetros. Como a covariância RBF é um caso especial da covariância ARD, se o RBF tiver um desempenho melhor, é uma forte indicação de que o kernel ARD está em excesso (comece a otimizar os coeficientes ARD nos valores ideais para a covariância RBF correspondente, isso é mais rápido e também ajuda a garantir que o problema com a covariância de DRA não se deva apenas a mínimos locais na probabilidade marginal). Esse é um problema muito maior do que geralmente é apreciado.

Eu escrevi alguns artigos sobre isso:

GC Cawley e NLC Talbot, Prevenindo o ajuste excessivo durante a seleção do modelo via regularização bayesiana dos hiperparâmetros, Journal of Machine Learning Research, volume 8, páginas 841-861, abril de 2007 ( pdf )

GC Cawley e NLC Talbot, excesso de ajuste na seleção de modelos e viés de seleção subsequente na avaliação de desempenho, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, julho de 2010 ( pdf )

O primeiro inclui alguns experimentos com GPs, que mostram que o excesso de ajuste na seleção de modelos também é um problema para GPs com seleção de modelo baseada na maximização da probabilidade marginal.

Uma análise mais completa seria avaliar o erro de teste do GP em cada etapa do processo de otimização da probabilidade marginal. É muito provável que você obtenha a marca clássica de ajuste excessivo, onde o critério de seleção do modelo está diminuindo monotonicamente, mas o erro de teste inicialmente diminui, mas começa a subir novamente à medida que o critério de seleção do modelo é otimizado demais (cf. Figura 2a no documento JMLR de 2010).

— Dikran Marsupial
fonte

Legal obrigado - eu estou lendo o primeiro agora. Você encontrou uma maneira mais eficaz de regularizar novamente o ajuste excessivo de kernels com muitos parâmetros como ARD se o termo de complexidade do modelo na probabilidade marginal não for suficiente para evitar o ajuste excessivo?

— Nicknameline

Suspeito que a coisa mais robusta a fazer seria marginalizar os hiperparâmetros usando os métodos Monte Carlo da Cadeia de Markov. Para o tamanho do conjunto de dados para o qual os GPs costumam se acostumar (até alguns milhares de padrões), suspeito que exagerar a probabilidade marginal é quase inevitável. A otimização IMHO é a raiz de todo mal nas estatísticas, sempre que você otimiza qualquer coisa que corre o risco de excesso de ajuste. A abordagem bayesiana é muito melhor nesse sentido, mas em vez corre o risco de dificuldades porque os priores está errado :-(

— Dikran Marsupial

@DikranMarsupial Existe alguma pesquisa mais recente sobre como evitar o excesso de ajustes usando os métodos de GP Variacional?

— imsrgadich