Como kjetil b halvorsen apontou, é, a seu modo, um milagre que a regressão linear admita uma solução analítica. E isso ocorre apenas em virtude da linearidade do problema (com relação aos parâmetros). Em OLS, tem
que tem condições de primeira ordem
- 2 Σ i ( y i - x ' i β ) x i = 0
Para um problema com p
∑i(yi−x′iβ)2→minβ,
−2∑i(yi−x′iβ)xi=0
pvariáveis (incluindo constante, se necessário, há alguns regressão com os problemas de origem, também), este é um sistema com
equações e
p incógnitas. Mais importante ainda, é um sistema linear, para que você possa encontrar uma solução usando a
teoria e prática padrão da
álgebra linear . Este sistema terá uma solução com probabilidade 1, a menos que você tenha variáveis perfeitamente colineares.
pp
Agora, com a regressão logística, as coisas não são mais tão fáceis. Escrever a função de probabilidade logarítmica,
e tomando sua derivada para encontrar o MLE, obtemos
∂ l
l(y;x,β)=∑iyilnpi+(1−yi)ln(1−pi),pi=(1+exp(−θi))−1,θi=x′iβ,
Os parâmetros
βinserem isso de maneira muito não-linear: para cada
i, há uma função não-linear e eles são somados. Não há solução analítica (exceto provavelmente em uma situação trivial com duas observações, ou algo assim), e você deve usar
métodos de otimização não linearpara encontrar as estimativas
∂l∂β′=∑idpidθ(yipi−1−yi1−pi)xi=∑i[yi−11+exp(x′iβ)]xi
βi .
β^
Uma análise um pouco mais profunda do problema (usando a segunda derivada) revela que este é um problema de otimização convexa de encontrar o máximo de uma função côncava (uma parábola multivariada glorificada), de modo que qualquer uma delas exista, e qualquer algoritmo razoável deve encontrá-la rapidamente, ou as coisas explodem até o infinito. Este último ocorre com regressão logística quando para alguns cProb[Yi=1|x′iβ>c]=1c, ou seja, você tem uma previsão perfeita. Esse é um artefato bastante desagradável: você pensaria que, quando tem uma previsão perfeita, o modelo funciona perfeitamente, mas, curiosamente, é o contrário.