Dediquei muito tempo ao desenvolvimento de métodos e softwares para validar modelos preditivos no domínio estatístico freqüentista tradicional. Ao colocar mais idéias bayesianas em prática e ensinar, vejo algumas diferenças importantes a serem adotadas. Primeiro, a modelagem preditiva bayesiana pede ao analista que pense muito sobre distribuições anteriores que podem ser personalizadas para os recursos candidatos, e esses anteriores puxarão o modelo em direção a eles (ou seja, conseguirão encolhimento / penalização / regularização com diferentes quantidades de penalização para diferentes recursos preditivos) ) Segundo, o caminho bayesiano "real" não resulta em um único modelo, mas obtém-se uma distribuição posterior inteira para uma previsão.
Com essas características bayesianas em mente, o que significa super adaptação? Devemos avaliar? Se sim, como? Como sabemos quando um modelo bayesiano é confiável para uso em campo? Ou esse é um ponto discutível, já que o posterior carrega todas as incertezas que dão cautela quando usamos o modelo que desenvolvemos para a previsão?
Como o pensamento mudaria se forçássemos que o modelo bayesiano fosse destilado para um único número, por exemplo, risco médio / modo / mediana posterior?
Eu vejo algum pensamento relacionado aqui . Uma discussão paralela pode ser encontrada aqui .
Pergunta de acompanhamento :: Se somos totalmente bayesianos e passamos algum tempo pensando nos anteriores antes de ver os dados, e ajustamos um modelo em que a probabilidade dos dados foi especificada adequadamente, somos obrigados a ficar satisfeitos com o nosso modelo em relação à super adaptação ? Ou precisamos fazer o que fazemos no mundo freqüentista, em que um sujeito escolhido aleatoriamente pode ser bem previsto em média, mas se escolhermos um sujeito com uma previsão muito baixa ou um com um valor previsto muito alto, haverá regressão para o meio?