Equivalência entre mínimos quadrados e MLE no modelo gaussiano

Eu sou novo no Machine Learning e estou tentando aprender sozinho. Recentemente, eu estava lendo algumas notas de aula e tinha uma pergunta básica.

O slide 13 diz que "a estimativa de mínimos quadrados é igual à estimativa de máxima verossimilhança em um modelo gaussiano". Parece que é algo simples, mas não consigo ver isso. Alguém pode explicar o que está acontecendo aqui? Estou interessado em ver a matemática.

Mais tarde tentarei ver também o ponto de vista probabilístico da regressão de Ridge e Lasso; portanto, se houver alguma sugestão que me ajude, isso também será muito apreciado.

regression bayesian least-squares

— Andy
fonte

A função objetivo na parte inferior de p. 13 é apenas um múltiplo constante (

) da função objetivo na parte inferior de p. 10. O MLE minimiza o primeiro, enquanto os mínimos quadrados minimizam o último, QED.

n

$n$

— whuber

@ whuber: Obrigado pela sua resposta. Bem, o que eu queria saber é como o MLE está fazendo a minimização.

— Andy

Você quer dizer mecânica ou conceitualmente?

— whuber

@ whuber: Ambos! Se eu pudesse ver a matemática, isso também ajudaria.

— Andy

O link está quebrado; a falta de uma referência completa e mais contexto para a cotação dificulta apenas remover a referência ou localizar uma fonte alternativa para ela. O slide 13 deste link é suficiente? --- cs.cmu.edu/~epxing/Class/10701-10s/recitation/recitation3.pdf

— Glen_b -Reinstate Monica

No modelo

$Y = X \beta + \epsilon$

onde , o loglikelihood de para uma amostra de indivíduos é (até uma constante aditiva) $\epsilon \sim N(0,\sigma^{2})$ $Y|X$ $n$

\frac{- n}{2} registro (σ^{2}) - \frac{1 1}{2 σ^{2}} \sum_{Eu = 1 1}^{n} (y_{Eu} - x_{Eu} β)^{2}

$\frac{-n}{2} \log(\sigma^{2}) - \frac{1}{2 \sigma^{2}} \sum_{i=1}^{n} (y_{i}-x_{i} \beta)^{2}$

visto como uma função de apenas , o maximizador é exatamente o que minimiza $\beta$

\sum_{Eu = 1 1}^{n} (y_{Eu} - x_{Eu} β)^{2}

$\sum_{i=1}^{n} (y_{i}-x_{i} \beta)^{2}$

isso torna clara a equivalência?

— Macro
fonte

Este é precisamente o que está nas lâminas que se refere o OP

— whuber

Sim, eu vejo isso, mas eles na verdade não escrevem a probabilidade gaussiana de log na página 13 que, depois de fazer isso, torna óbvio que seu argmax é o mesmo que o argmin dos critérios do OLS, então achei que essa era uma adição interessante.

— Macro

bom ponto: o slide é um pouco superficial com os detalhes.

— whuber

β

$\beta$

L_{2}

$L_{2}$

A constante aditiva én/2 log(2 *pi)

— SmallChess