A resposta do @joceratops se concentra no problema de otimização da máxima probabilidade de estimativa. Esta é realmente uma abordagem flexível que é passível de muitos tipos de problemas. Para estimar a maioria dos modelos, incluindo modelos de regressão linear e logística, existe outra abordagem geral baseada no método de estimativa de momentos.
O estimador de regressão linear também pode ser formulado como a raiz da equação de estimativa:
0 = XT( Y- X β)
Nesse sentido, é visto como o valor que recupera um resíduo médio de 0. Ele não precisa contar com nenhum modelo de probabilidade subjacente para ter essa interpretação. É, no entanto, interessante deduzir as equações de pontuação para uma probabilidade normal; você verá que elas assumem exatamente a forma exibida acima. Maximizar a probabilidade de família exponencial regular para um modelo linear (por exemplo, regressão linear ou logística) é equivalente a obter soluções para suas equações de pontuação.β
0 = ∑i = 1nSEu( α , β) = ∂∂βregistroL (β, α , X, Y) = XT( Y- g( X β) ))
Onde possui o valor esperado . Na estimativa de GLM, é considerado o inverso de uma função de link. Nas equações de probabilidade normal, é a função de identidade e na regressão logística é a função de logit. Uma abordagem mais geral seria exigir que permita a especificação incorreta do modelo.YEug( XEuβ)gg- 1g- 10 = ∑ni = 1Y- g( XEuβ)
Além disso, é interessante notar que, para famílias exponenciais regulares, que é chamado de relação de variância média. De fato, para a regressão logística, a relação de variação média é tal que a média está relacionada à variação por . Isso sugere uma interpretação de um modelo GLM mal especificado como sendo aquele que fornece um resíduo médio de 0 Pearson. Isso sugere ainda uma generalização para permitir derivadas médias funcionais não proporcionais e relações de variação média.∂g( X β)∂β= V ( g( X β) ))p = g( X β)var ( YEu) = pEu( 1 - pEu)
Uma abordagem de equação de estimativa generalizada especificaria modelos lineares da seguinte maneira:
0 = ∂g( X β)∂βV- 1( Y- g( X β) ))
Com uma matriz de variações baseada no valor ajustado (média) dado por . Essa abordagem de estimativa permite escolher uma função de link e uma relação de variação média como nos GLMs.Vg( X β)
Na regressão logística, seria o logit inverso e seria dado por . As soluções para esta equação de estimativa, obtidas por Newton-Raphson, produzirão o obtido a partir da regressão logística. No entanto, uma classe um pouco mais ampla de modelos é estimada sob uma estrutura semelhante. Por exemplo, a função de link pode ser considerada o log do preditor linear, de modo que os coeficientes de regressão são riscos relativos e não razões de chances . O que - dadas as armadilhas bem documentadas de interpretar as ORs como RRs - me cabe perguntar por que alguém se encaixa mais nos modelos de regressão logística.gVeu eug( XEuβ) ( 1 - g( X β) ))β