A impressão que tive, com base em vários artigos, livros e artigos que li, é que a maneira recomendada de ajustar uma distribuição de probabilidade em um conjunto de dados é usando a estimativa de máxima verossimilhança (MLE). No entanto, como físico, uma maneira mais intuitiva é ajustar apenas o pdf do modelo ao pdf empírico dos dados usando mínimos quadrados. Por que, então, o MLE é melhor que os mínimos quadrados na distribuição de probabilidades ajustada? Alguém poderia me indicar um artigo / livro científico que responda a essa pergunta?
Meu palpite é que o MLE não assume um modelo de ruído e o "ruído" no pdf empírico é heterocedástico e não é normal.