Relação entre MLE e mínimos quadrados em caso de regressão linear

Hastie e Tibshirani mencionam na seção 4.3.2 do livro que, na configuração de regressão linear, a abordagem dos mínimos quadrados é de fato um caso especial de máxima probabilidade. Como podemos provar esse resultado?

PS: Não poupe detalhes matemáticos.

regression maximum-likelihood least-squares

— Pradnyesh Joshi
fonte

Não é um caso especial: eles são idênticos quando a distribuição de erros é normal.

— Zhanxiong

O modelo de regressão linear

$Y = X\beta + \epsilon$ , onde $\epsilon \sim N(0,I\sigma^2)$

$Y \in \mathbb{R}^{n}$ , e $X \in \mathbb{R}^{n \times p}$ $\beta \in \mathbb{R}^{p}$

Observe que o erro do nosso modelo (residual) é . Nosso objetivo é encontrar um vetor de s que minimize a norma ao quadrado desse erro. ${\bf \epsilon = Y - X\beta}$ $\beta$ $L_2$

Mínimos Quadrados

Dados os dados que cada é dimensional, buscamos encontrar: $(x_1,y_1),...,(x_n,y_n)$ $x_{i}$ $p$

{\hat{β}}_{L S} = \underset{β}{argmin} | | ϵ | |^{2} = \underset{β}{argmin} | | Y - X β | |^{2} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2}

$\widehat{\beta}_{LS} = {\underset \beta {\text{argmin}}} ||{\bf \epsilon}||^2 = {\underset \beta {\text{argmin}}} ||{\bf Y - X\beta}||^2 = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} ( y_i - x_{i}\beta)^2$

Máxima verossimilhança

Usando o modelo acima, podemos configurar a probabilidade dos dados, considerando os parâmetros como: $\beta$

L (Y | X, β) = \prod_{i = 1}^{n} f (y_{i} | x_{i}, β)

$L(Y|X,\beta) = \prod_{i=1}^{n} f(y_i|x_i,\beta)$

onde é o pdf de uma distribuição normal com média 0 e variância . Conectando-o: $f(y_i|x_i,\beta)$ $\sigma^2$

L (Y | X, β) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}}

$L(Y|X,\beta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_i - x_i\beta)^2}{2\sigma^2}}$

Agora, geralmente, ao lidar com as probabilidades, é matematicamente mais fácil fazer o registro antes de continuar (os produtos se tornam somas, os exponenciais desaparecem), então vamos fazer isso.

\log L (Y | X, β) = \sum_{i = 1}^{n} \log (\frac{1}{\sqrt{2 π σ^{2}}}) - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\log L(Y|X,\beta) = \sum_{i=1}^{n} \log(\frac{1}{\sqrt{2\pi\sigma^2}}) -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Como queremos a estimativa da máxima probabilidade, queremos encontrar o máximo da equação acima, com relação a . O primeiro termo não afeta nossa estimativa de , para que possamos ignorá-la: $\beta$ $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmax} \sum_{i = 1}^{n} - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmax}}} \sum_{i=1}^{n} -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Observe que o denominador é uma constante em relação a . Por fim, observe que há um sinal negativo na frente da soma. Portanto, encontrar o máximo de um número negativo é como encontrar o mínimo sem o negativo. Em outras palavras: $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2} = {\hat{β}}_{L S}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} (y_i - x_i\beta)^2 = \widehat{\beta}_{LS}$

Lembre-se de que, para que isso funcionasse, tivemos que fazer certas suposições do modelo (normalidade dos termos de erro, 0 média, variação constante). Isso torna o mínimo de quadrados equivalente ao MLE sob certas condições. Veja aqui e aqui para mais discussões.

Para completar, observe que a solução pode ser escrita como:

β = (X^{T} X)^{- 1} X^{T} y

${\bf \beta = (X^TX)^{-1}X^Ty}$

— ilanman
fonte