No livro PRML de Bishop, ele diz que o excesso de ajuste é um problema com a estimativa de máxima verossimilhança (MLE), e o Bayesian pode evitá-lo.
Mas eu acho que o super ajuste é um problema mais sobre a seleção de modelos, não sobre o método usado para fazer a estimativa de parâmetros. Ou seja, suponha que eu tenha um conjunto de dados , gerado por f ( x ) = s i n ( x ) , , agora eu posso escolher modelos diferentes H i para ajustar os dados e descobrir qual é o melhor. E os modelos em consideração são polinomiais com ordens diferentes, H 1 é a ordem 1, H 2 é a ordem 2, H 3 é a ordem 9.
Agora tento ajustar os dados com cada um dos três modelos, cada modelo tem seus parâmetros, indicados como w i para H i .
Usando ML, que terá uma estimativa do ponto dos parâmetros do modelo , e H 1 é muito simples e sempre sub-dimensionadas os dados, enquanto que H 3 é muito complexo e vai overfit os dados, apenas H 2 se encaixam bem os dados.
Minhas perguntas são,
1) O modelo superajustará os dados, mas não acho que seja o problema do ML, mas o problema do modelo em si. Porque, usando ML para H 1 , H 2 não resulta em super ajuste. Estou certo?
2) Comparado com o bayesiano, o ML tem algumas desvantagens, uma vez que apenas fornece a estimativa pontual dos parâmetros do modelo , e é superconfiante. Enquanto o bayesiano não depende apenas do valor mais provável do parâmetro, mas de todos os valores possíveis dos parâmetros, dados os dados observados D , certo?
3) Por que o bayesiano pode evitar ou diminuir o excesso de ajustes? Pelo que entendi, podemos usar bayesiano para comparação de modelos, ou seja, dados , podemos descobrir a probabilidade marginal (ou evidência de modelo) para cada modelo em consideração e, em seguida, escolher aquele com a maior probabilidade marginal, certo ? Se sim, por que isso?