Na regressão linear múltipla padrão, a capacidade de ajustar as estimativas dos mínimos quadrados ordinários (OLS) em duas etapas vem do teorema de Frisch-Waugh-Lovell . Este teorema mostra que a estimativa de um coeficiente para um determinado preditor em um modelo linear múltiplo é igual à estimativa obtida pela regressão dos resíduos da resposta (resíduos de uma regressão da variável resposta em relação às outras variáveis explicativas) em relação aos resíduos do preditor (resíduos) de uma regressão da variável preditora contra as outras variáveis explicativas). Evidentemente, você está buscando uma analogia com esse teorema que pode ser usada em um modelo de regressão logística.
Para esta pergunta, é útil recordar a caracterização de variável latente da regressão logística :
Yi=I(Y∗i>0)Y∗i=β0+βXxi+βZzi+εiεi∼IID Logistic(0,1).
Nesta caracterização do modelo, a variável de resposta latente é inobservável e, em vez disso, observamos o indicador que nos diz se a resposta latente é positiva ou não. Essa forma do modelo é semelhante à regressão linear múltipla, exceto que usamos uma distribuição de erro ligeiramente diferente (a distribuição logística em vez da distribuição normal) e, mais importante, apenas observamos um indicador mostrando se a resposta latente é positiva ou não .Y∗iYi
Isso cria um problema para qualquer tentativa de criar um ajuste em duas etapas do modelo. Esse teorema de Frisch-Waugh-Lovell depende da capacidade de obter resíduos intermediários para a resposta e o preditor de interesse, tomados contra as outras variáveis explicativas. No presente caso, só podemos obter resíduos de uma variável de resposta "categorizada". A criação de um processo de ajuste em duas etapas para regressão logística exigiria o uso de resíduos de resposta dessa variável de resposta categorizada, sem acesso à resposta latente subjacente. Isso me parece um grande obstáculo e, embora não seja impossível, parece improvável que seja possível ajustar o modelo em duas etapas.
Abaixo, apresentarei um relato do que seria necessário para encontrar um processo de duas etapas para ajustar uma regressão logística. Não tenho certeza se existe uma solução para esse problema ou se há uma prova de impossibilidade, mas o material aqui deve ajudá-lo a entender o que é necessário.
Como seria uma regressão logística em duas etapas? Suponha que desejemos construir um ajuste em duas etapas para um modelo de regressão logística em que os parâmetros sejam estimados por meio da estimativa de probabilidade máxima em cada etapa. Queremos que o processo envolva uma etapa intermediária que se ajuste aos dois modelos a seguir:
Yi=I(Y∗∗i>0)Y∗∗i=α0+αXxi+τi Zi=γ0+γXxi+δiτi∼IID Logistic(0,1),δi∼IID g.
Estimamos os coeficientes desses modelos (via MLEs) e isso produz valores ajustados intermediários . Na segunda etapa, ajustamos o modelo:α^0,α^X,γ^0,γ^X
Yi=logistic(α^0+α^1xi)+βZ(zi−γ^0−γ^Xxi)+ϵiϵi∼IID f.
Conforme especificado, o procedimento possui muitos elementos fixos, mas as funções de densidade e nessas etapas são deixadas não especificadas (embora elas devam ser distribuições com média zero que não dependem dos dados). Para obter um método de ajuste em duas etapas sob essas restrições, precisamos escolher e para garantir que o MLE para neste algoritmo de ajuste de modelo em duas etapas seja o mesmo que o MLE obtido no modelo de regressão logística em uma etapa acima.gfgfβZ
Para ver se isso é possível, primeiro escrevemos todos os parâmetros estimados desde o primeiro passo:
ℓy|x(α^0,α^X)ℓz|x(γ^0,γ^X)=maxα0,αX∑i=1nlnBern(yi|logistic(α0+αXxi)),=maxγ0,γX∑i=1nlng(zi−γ0−γXxi).
Seja para que a função de probabilidade de log para a segunda etapa seja:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
ℓy|z|x(βZ)=∑i=1nlnf(yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)).
Exigimos que o valor máximo dessa função seja o MLE do modelo de regressão logística múltipla. Em outras palavras, exigimos:
arg max βXℓy|z|x(βZ)=arg max βXmaxβ0,βZ∑i=1nlnBern(yi|logistic(β0+βXxi+βZzi)).
Deixo para outras pessoas determinar se existe uma solução para esse problema ou uma prova de que não há solução. Suspeito que a "categorização" da variável de resposta latente em uma regressão logística torne impossível encontrar um processo de duas etapas.