Costumo pensar dessa maneira. Na abordagem totalmente bayesiana, encontramos a integral
p (x∗| X)= ∫p(x∗| θ)p(θ | X) d θ
como integrando todos os modelos possíveis (infinitamente muitos de fato), e fazemos uma previsão levando todos esses modelos "em consideração". Como isso geralmente é intratável, usamos a estimativa MAP da região posteriorp ( θ | X), que corresponde à avaliação da mesma integral, mas desta vez usando uma parte infinitamente pequena de p ( θ | X), ou seja, no máximo. Em outras palavras, multiplicamosp (x∗| θ) com uma nova "distribuição delta" localizada no máximo da distribuição posterior e integre-a para obter a previsão.
A diferença é, portanto, bastante óbvia: um tratamento totalmente bayesiano corresponde a um conjunto infinito de modelos, onde uma determinada previsão p ( x | x , θ ) é ponderado pela probabilidade do modelo p ( θ | x ), ou seja, modelos mais prováveis contribuirão mais para a previsão. A estimativa do MAP dos parâmetros fornecerá a previsão de um modelo específico, o mais provável, de acordo com o teorema de Bayes. A teoria do conjunto nos mostra que geralmente obtemos uma melhor generalização e previsões mais precisas e, portanto, isso costuma ser "melhor" que o MAP.
Espero que isto ajude.