O objetivo do ajuste de máxima verossimilhança é determinar os parâmetros de alguma distribuição que melhor se ajusta aos dados - e, de maneira mais geral, como esses parâmetros podem variar com as covariáveis. No caso de MLG, queremos determinar os parâmetros de alguma distribuição de família exponencial, e como eles são uma função de algumas co-variáveis X .θX
Para qualquer distribuição de probabilidade na família exponencial superdispersa, é garantido que a média esteja relacionada ao parâmetro da família exponencial canônica θ através da função de ligação canônica, θ = g ( μ ) . Podemos até determinar uma fórmula geral para g , e tipicamente g também é invertível. Se simplesmente definirmos μ = g - 1 ( θ ) e θ = X β , obteremos automaticamente um modelo de como μ e θ variam comμθθ=g(μ)ggμ = g- 1( θ )θ = Xβμθ , independentemente da distribuição com a qual estamos lidando, e esse modelo pode serajustado de maneira fácil e confiável aos dados pela otimização convexa. A resposta de Mattmostra como funciona para a distribuição de Bernoulli, mas a verdadeira mágica é que funciona para todas as distribuições da família.X
O modo não possui essas propriedades. De fato, como Cliff AB aponta, o modo pode nem ter uma relação bijetiva com o parâmetro de distribuição, portanto a inferência do modo é de poder muito limitado. Veja a distribuição de Bernoulli, por exemplo. Seu modo é 0 ou 1, e saber o modo apenas informa se , a probabilidade de 1, é maior ou menor que 1/2. Por outro lado, a média diz exatamente o que p é.pp
Agora, para esclarecer alguma confusão na pergunta: probabilidade máxima não é encontrar o modo de uma distribuição, porque a probabilidade não é a mesma função que a distribuição. A probabilidade envolve a distribuição do modelo em sua fórmula, mas é aí que as semelhanças terminam. A função de probabilidade usa um valor de parâmetro θ como entrada e informa a probabilidade de todo o conjunto de dados , considerando a distribuição do modelo com θ . A distribuição do modelo f θ ( y ) depende de θ , mas, como função, assume um valor yL ( θ )θθfθ( y)θycomo entrada e informa com que frequência uma amostra aleatória dessa distribuição será igual a . O máximo de L ( θ ) e o modo de f θ ( y ) não são a mesma coisa.yL ( θ )fθ( y)
Talvez ajude a ver a fórmula da probabilidade. No caso dos dados IID , temos
L ( θ ) = n ∏ i = 1 f θ ( y i )
Os valores de y i são todos fixos - eles são os valores do seu dados. A probabilidade máxima é encontrar o θ que maximiza L ( θ ) . Encontrar o modo da distribuição seria encontrar y que maximiza fy1, y2, … , Yn
L ( θ ) = ∏i = 1nfθ( yEu)
yEuθL ( θ )y , que não é o que queremos:
y é fixo na probabilidade, não uma variável.
fθ( y)y
Portanto, encontrar o máximo da função de verossimilhança não é, em geral, o mesmo que encontrar o modo de distribuição do modelo. (É o modo de outra distribuição, se você perguntar a um bayesiano objetivo, mas essa é uma história muito diferente!)