Bayesian vs MLE, problema de sobreajuste

No livro PRML de Bishop, ele diz que o excesso de ajuste é um problema com a estimativa de máxima verossimilhança (MLE), e o Bayesian pode evitá-lo.

Mas eu acho que o super ajuste é um problema mais sobre a seleção de modelos, não sobre o método usado para fazer a estimativa de parâmetros. Ou seja, suponha que eu tenha um conjunto de dados , gerado por $D$ , agora eu posso escolher modelos diferentes para ajustar os dados e descobrir qual é o melhor. E os modelos em consideração são polinomiais com ordens diferentes, é a ordem 1, é a ordem 2, é a ordem 9.

f (x) = s i n (x), x \in [0, 1]

$f(x)=sin(x),\;x\in[0,1]$

H_{i}

$H_i$

H_{1}

$H_1$

H_{2}

$H_2$

H_{3}

$H_3$

Agora tento ajustar os dados com cada um dos três modelos, cada modelo tem seus parâmetros, indicados como para . $D$ $w_i$ $H_i$

Usando ML, que terá uma estimativa do ponto dos parâmetros do modelo , e é muito simples e sempre sub-dimensionadas os dados, enquanto que é muito complexo e vai overfit os dados, apenas se encaixam bem os dados. $w$ $H_1$ $H_3$ $H_2$

Minhas perguntas são,

1) O modelo superajustará os dados, mas não acho que seja o problema do ML, mas o problema do modelo em si. Porque, usando ML para não resulta em super ajuste. Estou certo? $H_3$ $H_1,H_2$

2) Comparado com o bayesiano, o ML tem algumas desvantagens, uma vez que apenas fornece a estimativa pontual dos parâmetros do modelo , e é superconfiante. Enquanto o bayesiano não depende apenas do valor mais provável do parâmetro, mas de todos os valores possíveis dos parâmetros, dados os dados observados , certo? $w$ $D$

3) Por que o bayesiano pode evitar ou diminuir o excesso de ajustes? Pelo que entendi, podemos usar bayesiano para comparação de modelos, ou seja, dados , podemos descobrir a probabilidade marginal (ou evidência de modelo) para cada modelo em consideração e, em seguida, escolher aquele com a maior probabilidade marginal, certo ? Se sim, por que isso? $D$

bayesian model-selection overfitting

— abacate
fonte

Respostas:

A otimização é a raiz de todo mal nas estatísticas. Sempre que você faz escolhas sobre seu modelo , otimizando algum critério adequado avaliado em uma amostra finita de dados, você corre o risco de superajustar o critério, ou seja, reduzindo a estatística além do ponto em que são obtidas melhorias no desempenho da generalização e a redução é em vez disso, explorando as peculiaridades da amostra de dados, por exemplo, ruído). A razão pela qual o método bayesiano funciona melhor é que você não otimiza nada, mas marginaliza (integra) todas as opções possíveis. O problema então reside na escolha de crenças anteriores sobre o modelo; portanto, um problema desapareceu, mas outro aparece em seu lugar. $^1$

Isso inclui maximizar a evidência (probabilidade marginal) em um cenário bayesiano. Para um exemplo disso, veja os resultados dos classificadores de Processo Gaussiano em meu artigo, onde otimizar a probabilidade marginal piora o modelo se você tiver muitos hiperparâmetros (a seleção de notas de acordo com a probabilidade marginal tenderá a favorecer modelos com muito parâmetros como resultado dessa forma de sobreposição). $^1$

GC Cawley e NLC Talbot, excesso de ajuste na seleção de modelos e viés de seleção subsequente na avaliação de desempenho, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, julho de 2010. ( pdf )

— Dikran Marsupial
fonte

+1, muito obrigado, vou ler o seu artigo e ver se tenho mais alguma dúvida ;-)

— abacate

Apenas para observar aqui que a otimização geralmente pode ser considerada como uma integração aproximada - o método Laplace é um exemplo disso. A otimização geralmente falha quando não é uma boa aproximação à integração - por isso, a REML geralmente é melhor que a ML.

— probabilityislogic

@probabilityislogic, não sei ao certo se o ML é um pouco parecido com o MAP, não há integração realizada. O uso da aproximação de Laplace (da maneira como eu a vi usada) é otimizar no sentido de que você otimiza uma aproximação à função que deseja integrar e integrar, mas ainda há integração em andamento.

— Dikran Marsupial

@dikran marsupial - Talvez a melhor maneira de explicar isso é que a integração geralmente é bem aproximada estimando um parâmetro por ML e restringindo esse parâmetro a ser igual ao seu MLE. A aproximação de Laplace fornece um "fator de correção" para essa intuição - da mesma maneira que REML.

— probabilityislogic

@probabilityislogic obrigado pela resposta, vou pensar um pouco!

— Dikran Marsupial

Como resposta geral, se você estiver usando modelos de regressão do tipo "mínimos quadrados", não haverá muita diferença entre bayes e ML, a menos que você use um informativo prévio para os parâmetros de regressão. Em resposta a detalhes:

$H_9$ $H_1$

$x$

3) A abordagem bayesiana pode evitar o excesso de ajustes apenas para os priores. Isso funciona de maneira semelhante aos termos de penalidade que você vê em alguns algoritmos de ajuste. Por exemplo, penalidade L2 = normal anterior, penalidade L1 = laplace anterior.

— probabilityislogic
fonte

H_{9}

$H_9$

H_{\infty}

$H_\infty$

H_{9}

$H_9$

$H_1$ $H_2$ $H_3$ não overfit em tudo pode, se o número de instâncias de treinamento é grande o suficiente.

$2$ $H_1$ será sempre overfit seus dados.

A vantagem de impor antecedentes, por exemplo, através da regularização, é que os parâmetros são reduzidos a zero ou algum outro valor predefinido (você pode até adicionar parâmetros para "amarrar" os coeficientes, se quiser) e, assim, restringir implicitamente os parâmetros e reduzindo a "liberdade" do seu modelo para se ajustar demais. Por exemplo, usando o laço (ou seja, $l^1$

— Youloush
fonte

Uma hipótese simples (por exemplo, h1, h2) com amostras de treinamento insuficientes seria um exemplo de ajuste insuficiente (para cv) e não ajuste excessivo devido ao viés do modelo nos poucos exemplos de treinamento fornecidos.

— Yekta