A resposta curta de @bean explica muito bem. No entanto, gostaria de apontar para a seção 1.1 do artigo Gibbs Sampling para os não iniciados por Resnik e Hardisty, que leva o assunto a uma profundidade maior. Estou escrevendo algumas linhas deste artigo com modificações muito pequenas (esta resposta repete algumas das coisas que o OP sabe por uma questão de integridade)
MLE
Formalmente, o MLE produz a escolha (do parâmetro do modelo) com maior probabilidade de gerar os dados observados.
MAPA
Um MAP estimado é a escolha mais provável, dados os dados observados. Ao contrário do MLE, a estimativa do MAP aplica a Regra de Bayes, para que nossa estimativa possa levar em consideração o conhecimento prévio sobre o que esperamos que nossos parâmetros sejam na forma de uma distribuição de probabilidade anterior.
Pegar
As estimativas MLE e MAP estão nos dando a melhor estimativa, de acordo com suas respectivas definições de "melhor". Mas observe que o uso de uma única estimativa - seja MLE ou MAP - descarta as informações. Em princípio, o parâmetro pode ter qualquer valor (do domínio); podemos não obter melhores estimativas se levarmos em conta toda a distribuição, em vez de apenas um único valor estimado para o parâmetro? Se fizermos isso, usaremos todas as informações sobre o parâmetro que podemos extrair dos dados observados, X.
Portanto, com essa captura, podemos querer usar nenhuma delas. Além disso, como já mencionado por bean e Tim, se você precisar usar um deles, use MAP se tiver obtido anteriormente. Se você não tem antecedentes, o MAP reduz para o MLE. Priores conjugados ajudarão a resolver o problema analiticamente, caso contrário, use Gibbs Sampling.