Fiz essa pergunta outro dia e nunca a havia considerado antes.
Minha intuição vem das vantagens de cada estimador. A probabilidade máxima é de preferência quando estamos confiantes no processo de geração de dados porque, diferentemente do método dos momentos, ele utiliza o conhecimento de toda a distribuição. Como os estimadores do MoM usam apenas as informações contidas nos momentos, parece que os dois métodos devem produzir as mesmas estimativas quando as estatísticas suficientes para o parâmetro que estamos tentando estimar são exatamente os momentos dos dados.
Eu verifiquei esse resultado com algumas distribuições. Normal (média e variância desconhecidas), exponencial e Poisson têm estatísticas suficientes iguais aos seus momentos e têm os estimadores MLEs e MoM os mesmos (não estritamente verdade para coisas como Poisson, onde existem vários estimadores MoM). Se olharmos para um uniforme , a estatística suficiente para é e os estimadores MoM e MLE são diferentes.
Eu pensei que talvez isso fosse uma peculiaridade da família exponencial, mas para um Laplace com média conhecida, a estatística suficiente é e o estimador MLE e MoM para a variância não são iguais.
Até agora, fui incapaz de mostrar qualquer tipo de resultado em geral. Alguém sabe de condições gerais? Ou mesmo um exemplo contrário me ajudaria a refinar minha intuição.