Melhor abordagem para seleção de modelos bayesiana ou validação cruzada?

Ao tentar selecionar entre vários modelos ou o número de recursos a serem incluídos, digamos previsão, posso pensar em duas abordagens.

Divida os dados em conjuntos de treinamento e teste. Melhor ainda, use bootstrapping ou validação cruzada k-fold. Treine sempre no conjunto de treinamento e calcule o erro sobre o conjunto de teste. Erro no teste de plotagem vs. número de parâmetros. Normalmente, você obtém algo assim:
Calcule a probabilidade do modelo integrando sobre os valores dos parâmetros. ou seja, calcule e plote isso em relação ao número de parâmetros. Em seguida, temos algo parecido com isto: $\int_\theta P(D|\theta)P(\theta)d \theta$

Então, minhas perguntas são:

Essas abordagens são adequadas para resolver esse problema (decidir quantos parâmetros incluir no seu modelo ou selecionar entre vários modelos)?
Eles são equivalentes? Provavelmente não. Eles darão o mesmo modelo ideal sob certas suposições ou na prática?
Além da diferença filosófica usual de especificar conhecimentos prévios em modelos bayesianos, etc., quais são os prós e os contras de cada abordagem? Qual você escolheria?

Atualização: Também encontrei a pergunta relacionada sobre a comparação da AIC e da BIC. Parece que meu método 1 é assintoticamente equivalente ao AIC e o método 2 é assintoticamente relacionado ao BIC. Mas eu também li lá que o BIC é equivalente ao CV Leave-One-Out. Isso significaria que o erro mínimo de treinamento e o máximo de verossimilhança bayesiana são equivalentes onde LOO CV é equivalente a K-fold CV. Um artigo talvez muito interessante " Uma teoria assintótica para seleção linear de modelos ", de Jun Shao, relaciona-se a essas questões.

— alta largura de banda
fonte

Eu realmente não tenho uma resposta completa, mas mencionarei que normalmente não pensaria em usar um dos métodos para "escolher o número de recursos". Em geral, eu interpreto Machine Learning e Bayesian Statistics para incluir apenas todos os recursos, pois todos eles provavelmente têm algum nível de impacto mínimo. No entanto, acho que a questão da complexidade relativa do modelo ainda é apropriada. Também vou declarar que nunca realizei a inferência bayesiana a que você alude; na prática, parece muito confuso comparado à simplicidade do k-fold ou do bootstrap.

— Shea Parkes

Observe que o papel Shao funciona apenas para modelos lineares; de fato, apenas sua estrutura simples torna o número de recursos utilizáveis como uma medida de complexidade e, assim, alimenta todos esses critérios de informação.

O AIC ( não o BIC! ) É assintoticamente equivalente à validação cruzada de sobreaviso sob suposições fracas (devido a Stone "Uma equivalência assintótica da escolha do modelo pela validação cruzada e pelo critério de Akaike" (1977) ). A fonte na pergunta a que você se refere estava errada e foi corrigida por Rob Hyndman em um comentário. Eu pensei que seria uma boa ideia corrigi-lo aqui também, para parar de espalhar a ideia errada.

— Richard Hardy

Respostas:

Essas abordagens são adequadas para resolver esse problema (decidir quantos parâmetros incluir no seu modelo ou selecionar entre vários modelos)?

Qualquer um poderia ser, sim. Se você estiver interessado em obter um modelo que preveja melhor, da lista de modelos que você considera, a abordagem de divisão / validação cruzada pode fazer isso bem. Se você estiver interessado em saber qual dos modelos (na sua lista de modelos putativos) é realmente o que gera seus dados, a segunda abordagem (avaliar a probabilidade posterior dos modelos) é o que você deseja.

Eles são equivalentes? Provavelmente não. Eles darão o mesmo modelo ideal sob certas suposições ou na prática?

Não, eles não são em geral equivalentes. Por exemplo, o uso do AIC (An Information Criterion, de Akaike) para escolher o melhor modelo corresponde à validação cruzada, aproximadamente. O uso do BIC (Critério de Informação Bayesiano) corresponde ao uso das probabilidades posteriores, novamente aproximadamente. Como esse não é o mesmo critério, deve-se esperar que eles levem a escolhas diferentes, em geral. Eles podem dar as mesmas respostas - sempre que o modelo que predizer melhor também for a verdade - mas em muitas situações o modelo que melhor se encaixa é na verdade aquele que se adapta melhor, o que leva a discordâncias entre as abordagens.

Eles concordam na prática? Depende do que sua 'prática' envolve. Tente dos dois lados e descubra.

Além da diferença filosófica usual de especificar conhecimentos prévios em modelos bayesianos, etc., quais são os prós e os contras de cada abordagem? Qual desses você escolheria?

Geralmente, é muito mais fácil fazer cálculos para validação cruzada do que calcular probabilidades posteriores
Muitas vezes, é difícil argumentar de forma convincente que o modelo "verdadeiro" está na lista da qual você está escolhendo. Esse é um problema para uso de probabilidades posteriores, mas não para validação cruzada
Ambos os métodos tendem a envolver o uso de constantes razoavelmente arbitrárias; quanto vale uma unidade extra de previsão, em termos de número de variáveis? Quanto acreditamos em cada um dos modelos, a priori ?
- Eu provavelmente escolheria validação cruzada. Mas antes de confirmar, eu gostaria de saber muito sobre por que essa seleção de modelo estava sendo feita, ou seja, para que o modelo escolhido deveria ser usado. Nenhuma das formas de seleção de modelo pode ser apropriada se, por exemplo, for necessária inferência causal.

— hóspede
fonte

A otimização é a raiz de todo mal nas estatísticas! ; o)

Sempre que você tenta selecionar um modelo com base em um critério que é avaliado em uma amostra finita de dados, você introduz um risco de ajustar demais o critério de seleção de modelo e acabar com um modelo pior do que o iniciado. Tanto a validação cruzada quanto a probabilidade marginal são critérios de seleção de modelo sensatos, mas ambos dependem de uma amostra finita de dados (assim como AIC e BIC - a penalidade de complexidade pode ajudar, mas não resolve esse problema). Eu descobri que isso é um problema substancial no aprendizado de máquina, consulte

GC Cawley e NLC Talbot, excesso de ajuste na seleção de modelos e viés de seleção subsequente na avaliação de desempenho, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, julho de 2010. ( www )

Do ponto de vista bayesiano, é melhor integrar todas as opções e parâmetros do modelo. Se você não otimizar ou escolher qualquer coisa, fica mais difícil ajustar demais. A desvantagem é que você acaba com integrais difíceis, que geralmente precisam ser resolvidas com o MCMC. Se você deseja um melhor desempenho preditivo, sugiro uma abordagem totalmente bayesiana; se você deseja entender os dados, geralmente é útil escolher um melhor modelo. No entanto, se você redimensionar os dados e acabar com um modelo diferente a cada vez, isso significa que o procedimento de ajuste é instável e nenhum dos modelos é confiável para a compreensão dos dados.

Observe que uma diferença importante entre validação cruzada e evidência é que o valor da probabilidade marginal assume que o modelo não está especificado incorretamente (essencialmente a forma básica do modelo é apropriada) e pode fornecer resultados enganosos, se for o caso. A validação cruzada não faz essa suposição, o que significa que ela pode ser um pouco mais robusta.

— Dikran Marsupial
fonte

A integração bayesiana é uma abordagem forte. Mas sempre questione se a seleção de modelos é o caminho certo para fazer isso. Qual é a motivação? Por que não postular um modelo completo, flexível e adequado?

— precisa saber é o seguinte

Muitos modelos flexíveis do @FrankHarrell incluem termos de regularização e outros hiperparâmetros, e ajustá-los também é a seleção de modelos e está sujeito aos mesmos problemas de sobreajuste do critério de seleção. O ajuste introduz um risco de ajuste excessivo, e isso se aplica a todos os níveis. No entanto, se você conhece a priori a estrutura do modelo, esse conhecimento especializado deve ser usado.

— Dikran Marsupial

É melhor procurar um método que não exija ajuste, mas isso nem sempre é possível. Meu ponto principal é que a especificação do modelo funciona melhor que a seleção de modelos e não assume que a seleção de recursos seja um objetivo nobre.

— Frank Harrell

A seleção de recursos do @FrankHarrell raramente ajuda. Sempre que possível, a otimização deve ser evitada, o que envolve a escolha / ajuste de um modelo com base em uma amostra finita de dados (é claro que quanto maior a amostra, menor o risco).

— Dikran Marsupial 02/02