Em esta questão populares , alta resposta upvoted faz MLE e Baum Welch separar na montagem HMM.
Para problemas de treinamento, podemos usar os três algoritmos a seguir: MLE (estimativa de máxima verossimilhança), treinamento em Viterbi (NÃO confunda com decodificação em Viterbi), Baum Welch = algoritmo de avanço / retrocesso
MAS na Wikipedia , diz
O algoritmo Baum-Welch usa o conhecido algoritmo EM para encontrar a estimativa da máxima probabilidade máxima dos parâmetros
Então, qual é a relação entre o MLE e o algoritmo de Baum-Welch?
Minha tentativa: o objetivo do algoritmo Baum-Welch é maximizar a probabilidade, mas ele usa um algoritmo especializado (EM) para resolver a otimização. Ainda podemos maximizar a probabilidade usando outros métodos, como o gradiente decente. É por isso que a resposta separa dois algoritmos.
Estou certo e alguém pode me ajudar a esclarecer?