Suponha, em geral, que você decidiu criar um modelo da forma
P(y=1|X=x)=h(x;Θ)
para algum parâmetro . Então você simplesmente anota a probabilidade disso, ou seja,Θ
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0P(y=0|x=x;Θ)
que é o mesmo que
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0(1−P(y=1|x=x;Θ))
Agora você decidiu 'assumir' (modelo)
P(y=1|X=x)=σ(Θ0+Θ1x)
onde
σ(z)=1/(1+e−z)
então você apenas calcula a fórmula para a probabilidade e algum tipo de algoritmo de otimização para encontrar o argmax Θ L ( Θ ) , por exemplo, o método newtons ou qualquer outro método baseado em gradiente.argmaxΘL(Θ)
Observe que, às vezes, as pessoas dizem que, quando estão fazendo regressão logística, não maximizam a probabilidade (como fizemos anteriormente), mas minimizam a função de perda
l(Θ)=−∑i=1Nyilog(P(Yi=1|X=x;Θ))+(1−yi)log(P(Yi=0|X=x;Θ))
mas observe que .−log(L(Θ))=l(Θ)
Esse é um padrão geral no aprendizado de máquina: o lado prático (minimizar as funções de perda que medem o quão 'errado' é um modelo heurístico) é de fato igual ao 'lado teórico' (modelar explicitamente com o símbolo , maximizando quantidades estatísticas como probabilidades) e, de fato, muitos modelos que não parecem probabilísticos (SVMs, por exemplo) podem ser re-entendidos em um contexto probabilístico e, de fato, são maximizações de probabilidades.P