Para expandir o meu comentário - depende. Se você está apenas tentando compreender o básico, ser capaz de encontrar extremos de funções é uma maneira justa (embora em muitos casos práticos do MLE, a probabilidade seja maximizada numericamente, nesse caso você precisa de outras habilidades e também de algumas cálculo básico).
Deixarei de lado os bons casos simples em que você obtém soluções algébricas explícitas. Mesmo assim, o cálculo é frequentemente muito útil.
Assumirei independência por toda parte. Vamos considerar o caso mais simples possível de otimização de 1 parâmetro. Primeiro, veremos um caso em que podemos obter derivadas e separar uma função do parâmetro e uma estatística.
Considere a densidade G a m m a (α,1)
fX( x ; α ) = 1Γ ( α )xα - 1exp( - x ) ;x > 0 ;α > 0
Então, para uma amostra de tamanho n , a probabilidade é
L (α; x )= ∏i = 1nfX( xEu; α )
e, portanto, a probabilidade logarítmica é
l (α; x )= ∑i = 1nemfX( xEu; α )= ∑i = 1nem( 1Γ ( α )xα - 1Euexp( - xEu) ))
= ∑i = 1n- emΓ ( α ) +(α-1)lnxEu- xEu
= - n lnΓ ( α ) +(α-1) Sx- n x¯
Sx= ∑ni = 1emxEu
ddαl (α; x )= ddα( - n lnΓ ( α ) +(α-1) Sx- n x¯)
= - n Γ′( α )Γ ( α )+ Sx
= - n ψ ( α ) + Sx
α^ψ ( α^) = lnG ( x )
ψ ( ⋅ )G ( ⋅ )
α^
ψ ( α^) = g
g= lnG ( x )
Isso não tem uma solução em termos de funções elementares, deve ser calculado numericamente; pelo menos conseguimos obter uma função do parâmetro de um lado e uma função dos dados do outro. Existem vários algoritmos de busca zero que podem ser usados se você não tiver uma maneira explícita de resolver a equação (mesmo se você estiver sem derivadas, há uma seção binária, por exemplo).
f( x ; μ ) = 14sech2( x - μ2) .
μ
θ
fX(x;θ)=1π(1+(x−θ)2).
Em geral, a probabilidade aqui não tem um máximo local único, mas vários máximos locais. Se você encontrar um máximo local, pode haver outro maior em outro lugar. (Às vezes, as pessoas se concentram em identificar o máximo local mais próximo da mediana, ou algo assim.)
(0,θ)
Em outros casos, o espaço do parâmetro pode ser discreto.
Às vezes, encontrar o máximo pode estar bastante envolvido.
E isso é apenas uma amostra dos problemas com um único parâmetro. Quando você tem vários parâmetros, as coisas se envolvem novamente.