O modelo de regressão linear
£ ~ N ( 0 , I σ 2 )Y= Xβ+ ϵ , ondeε ~ N( 0 , euσ2)
X ∈ R n × p β ∈ R pY∈Rn , eX∈Rn×pβ∈Rp
Observe que o erro do nosso modelo (residual) é . Nosso objetivo é encontrar um vetor de s que minimize a norma ao quadrado desse erro. p L 2ϵ=Y−XββL2
Mínimos Quadrados
Dados os dados que cada é dimensional, buscamos encontrar:x i p(x1,y1),...,(xn,yn)xip
βˆLS=argminβ||ϵ||2=argminβ||Y−Xβ||2=argminβ∑i=1n(yi−xiβ)2
Máxima verossimilhança
Usando o modelo acima, podemos configurar a probabilidade dos dados, considerando os parâmetros como:β
L(Y|X,β)=∏i=1nf(yi|xi,β)
onde é o pdf de uma distribuição normal com média 0 e variância . Conectando-o:σ 2f(yi|xi,β)σ2
L(Y|X,β)=∏i=1n12πσ2−−−−√e−(yi−xiβ)22σ2
Agora, geralmente, ao lidar com as probabilidades, é matematicamente mais fácil fazer o registro antes de continuar (os produtos se tornam somas, os exponenciais desaparecem), então vamos fazer isso.
logL(Y|X,β)=∑i=1nlog(12πσ2−−−−√)−(yi−xiβ)22σ2
Como queremos a estimativa da máxima probabilidade, queremos encontrar o máximo da equação acima, com relação a . O primeiro termo não afeta nossa estimativa de , para que possamos ignorá-la:ββ
βˆMLE=argmaxβ∑i=1n−(yi−xiβ)22σ2
Observe que o denominador é uma constante em relação a . Por fim, observe que há um sinal negativo na frente da soma. Portanto, encontrar o máximo de um número negativo é como encontrar o mínimo sem o negativo. Em outras palavras:β
βˆMLE=argminβ∑i=1n(yi−xiβ)2=βˆLS
Lembre-se de que, para que isso funcionasse, tivemos que fazer certas suposições do modelo (normalidade dos termos de erro, 0 média, variação constante). Isso torna o mínimo de quadrados equivalente ao MLE sob certas condições. Veja aqui e aqui para mais discussões.
Para completar, observe que a solução pode ser escrita como:
β=(XTX)−1XTy