Enquanto realizava minhas atividades de escavação em perguntas sem resposta, encontrei essa muito sensata, para a qual, acho, até agora o OP encontrou uma resposta.
Mas percebi que tinha várias perguntas próprias a respeito da questão da separação perfeita na regressão logística, e uma pesquisa (rápida) na literatura não parecia respondê-las. Por isso, decidi iniciar um pequeno projeto de pesquisa (provavelmente reinventando a roda) e, com essa resposta, gostaria de compartilhar alguns de seus resultados preliminares. Acredito que esses resultados contribuem para a compreensão de se a questão da separação perfeita é puramente "técnica" ou se pode ser dada uma descrição / explicação mais intuitiva.
Minha primeira preocupação foi entender o fenômeno em termos algorítmicos, e não a teoria geral por trás dele: sob quais condições a abordagem de estimativa de probabilidade máxima será "interrompida" se alimentada com uma amostra de dados que contenha um regressor para o qual o fenômeno de perfeita existe separação?
Os resultados preliminares (teóricos e simulados) indicam que:
1) Importa se um termo constante está incluído na especificação do logit.
2) Importa se o regressor em questão é dicotômico (na amostra) ou não.
3) Se dicotômico, pode importar se o valor é ou não.
4) Importa se outros regressores estão presentes na especificação ou não.
5) Importa como as quatro questões acima são combinadas. 0 0
Apresento agora um conjunto de condições suficientes para uma separação perfeita para que o MLE se quebre. Isso não tem relação com o fato de os vários softwares estatísticos alertarem sobre o fenômeno - eles podem fazer isso varrendo a amostra de dados antes de tentar executar a estimativa de probabilidade máxima. Preocupo-me com os casos em que a estimativa da probabilidade máxima começará - e quando ela será interrompida no processo.
Suponha um modelo de regressão logística de escolha binária "usual"
P( YEu∣ β0 0, XEu, zEu) = Λ ( g( β0 0, xEu, zEu) ) ,g( β0 0, xEu, zEu) = β0 0+ β1xEu+ z′Euγ
é o regressor com separação perfeita, enquanto Z é uma coleção de outros regressores que não são caracterizados por separação perfeita. Além dissoXZ
Λ ( g( β0 0, xEu, zEu) ) = 11 + e- g( β0 0, xEu, zEu)≡ ΛEu
A probabilidade de log para uma amostra de tamanho én
emL = ∑i = 1n[ yEuem( ΛEu) + ( 1 - yEu) em( 1 - ΛEu) ]
O MLE será encontrado definindo as derivadas iguais a zero. Em particular, queremos
∑i = 1n( yEu- ΛEu) = 0(1)
∑i = 1n( yEu- ΛEu) xEu= 02)
A primeira equação vem de tomar a derivada em relação ao termo constante, a 2 de tomar a derivada em relação a .X
Suponha agora que em todos os casos em que temos x i = a k , e que x i nunca assume o valor a k quando y i = 0 . Este é o fenômeno da separação completa, ou "previsão perfeita": se observarmos x i = um k sabemos que y i = 1 . Se observarmos x i ≠ a k , sabemos que y i = 0y1= 1xEu= akxEuumakyEu= 0xEu= akyEu= 1xEu≠ akyEu= 0. Isso vale independentemente de, em teoria ou na amostra , ser discreto ou contínuo, dicotômico ou não. Mas também, esse é um fenômeno específico da amostra - não argumentamos que ele se mantenha sobre a população. Mas a amostra específica é o que temos em nossas mãos para alimentar o MLE.X
Agora denote a frequência aboluta de por n yyEu= 1ny
ny≡ ∑i = 1nyEu= ∑yEu= 1yEu(3)
Podemos então reescrever a eq como( 1 )
ny= ∑i = 1nΛEu= ∑yEu= 1ΛEu+ ∑yEu= 0ΛEu⇒ ny- ∑yEu= 1ΛEu= ∑yEu= 0ΛEu4)
Voltando à eq. nós temos( 2 )
∑i = 1nyEuxEu- ∑i = 1nΛEuxEu= 0 ⇒ ∑yEu= 1yEuumak+ ∑yEu= 0yEuxEu- ∑yEu= 1ΛEuumak- ∑yEu= 0ΛEuxEu= 0
usando temos
n y a k + 0 - a k ∑ y i = 1 Λ i - ∑ y i = 0 Λ i x i = 0( 3 )
nyumak+ 0 - ak∑yEu= 1ΛEu- ∑yEu= 0ΛEuxEu= 0
⇒ ak( ny- ∑yEu= 1ΛEu) - ∑yEu= 0ΛEuxEu= 0
e usando obtemos( 4 )
umak∑yEu= 0ΛEuxEu- ∑yEu= 0ΛEuxEu= 0 ⇒ ∑yEu= 0( ak- xEu) ΛEu= 0(5)
X( 5 )
yEu= 0xEu≠ ak
X( ak- xEu) ≠ 0Eu( 5 )
Xumak( ak- xEu) ≠ 0Eu( 5 )
ΛEu( 5 )ΛEu= 0Eu
ΛEu= 11 + e- g( β0 0, xEu, zEu)
ΛEu0 0g( β0 0, xEu, zEu) → - ∞g( )
Xumak( 5 )( ak- xEu)( 5 )
Não estou dizendo que esse exemplo não crie consequências indesejáveis para as propriedades do estimador, etc: apenas observe que, nesse caso, o algoritmo de estimativa será executado normalmente.
Xumak( 1 )