Como descrever e apresentar a questão da separação perfeita?

As pessoas que trabalham com regressão logística estão familiarizadas com a questão da separação perfeita: se você tiver uma variável com valores específicos associados a apenas um dos dois resultados (digamos um binário, de $x$ modo que todas as observações com $x=1$ tenham resultado = 1 ), a probabilidade explode e as estimativas de probabilidade máxima correm para o infinito. glmem R pode ou não lidar com isso terrivelmente bem, pois a mensagem de erro de previsão perfeita pode aparecer por outros motivos que não a previsão / separação perfeitas. logitno Stata identifica essas variáveis e valores problemáticos e os descarta da análise.

Minha pergunta é diferente do que fazer se você tiver uma separação perfeita. Com o que posso lidar recodificando minhas variáveis (todas são categóricas, para que eu possa simplesmente combinar categorias) ou com a versão Firth da regressão logística, se quiser ser sofisticado.

Em vez disso, me pergunto quais são as maneiras comuns de descrever isso. Eu tenho um conjunto de dados com cerca de 100 pacientes com cerca de 50% de proporção "positiva", e algumas categorias das variáveis demográficas produzem essa previsão perfeita. Digamos que todas as sete pessoas de olhos verdes tenham um resultado "positivo". Essa pode ser uma pequena peculiaridade da amostra que desapareceria se eu tivesse um tamanho de amostra de 1000 e 70 pessoas de olhos verdes, mas pode ser clinicamente significativo, pois nessa amostra maior eu poderia ter 60 das 70 pessoas de olhos verdes que teriam um resultado "positivo" com altas taxas de chances.

Portanto, é bom dizer que usei um método bayesiano ou outro método de encolhimento, mas ao descrever como cheguei lá, eu precisaria admitir que tinha uma previsão / separação perfeita e precisava encontrar uma técnica mais sofisticada para obter resultados em todos. Qual seria uma boa linguagem para usar aqui?

logistic separation

— StasK
fonte

Relacionados: Buscando uma compreensão teórica de Firth Regressão Logística

— SMCI

Veja aqui um ponto de vista: stats.stackexchange.com/questions/254124/…

— kjetil b halvorsen

Enquanto realizava minhas atividades de escavação em perguntas sem resposta, encontrei essa muito sensata, para a qual, acho, até agora o OP encontrou uma resposta.
Mas percebi que tinha várias perguntas próprias a respeito da questão da separação perfeita na regressão logística, e uma pesquisa (rápida) na literatura não parecia respondê-las. Por isso, decidi iniciar um pequeno projeto de pesquisa (provavelmente reinventando a roda) e, com essa resposta, gostaria de compartilhar alguns de seus resultados preliminares. Acredito que esses resultados contribuem para a compreensão de se a questão da separação perfeita é puramente "técnica" ou se pode ser dada uma descrição / explicação mais intuitiva.

Minha primeira preocupação foi entender o fenômeno em termos algorítmicos, e não a teoria geral por trás dele: sob quais condições a abordagem de estimativa de probabilidade máxima será "interrompida" se alimentada com uma amostra de dados que contenha um regressor para o qual o fenômeno de perfeita existe separação?

Os resultados preliminares (teóricos e simulados) indicam que:
1) Importa se um termo constante está incluído na especificação do logit.
2) Importa se o regressor em questão é dicotômico (na amostra) ou não.
3) Se dicotômico, pode importar se o valor é ou não. 4) Importa se outros regressores estão presentes na especificação ou não. 5) Importa como as quatro questões acima são combinadas. $0$

Apresento agora um conjunto de condições suficientes para uma separação perfeita para que o MLE se quebre. Isso não tem relação com o fato de os vários softwares estatísticos alertarem sobre o fenômeno - eles podem fazer isso varrendo a amostra de dados antes de tentar executar a estimativa de probabilidade máxima. Preocupo-me com os casos em que a estimativa da probabilidade máxima começará - e quando ela será interrompida no processo.

Suponha um modelo de regressão logística de escolha binária "usual"

P (Y_{i} ∣ β_{0}, X_{i}, z_{i}) = Λ (g (β_{0}, x_{i}, z_{i})), g (β_{0}, x_{i}, z_{i}) = β_{0} + β_{1} x_{i} + z_{i}^{'} γ

$P(Y_i \mid \beta_0, X_i, \mathbf z_i) = \Lambda (g(\beta_0,x_i, \mathbf z_i)), \;\; g(\beta_0,x_i, \mathbf z_i) = \beta_0 +\beta_1x_i + \mathbf z_i'\mathbf \gamma$

é o regressor com separação perfeita, enquanto é uma coleção de outros regressores que não são caracterizados por separação perfeita. Além disso $X$ $\mathbf Z$

Λ (g (β_{0}, x_{i}, z_{i})) = \frac{1}{1 + e^{- g (β_{0}, x_{i}, z_{i})}} \equiv Λ_{i}

$\Lambda (g(\beta_0,x_i, \mathbf z_i)) = \frac 1{1+e^{-g(\beta_0,x_i, \mathbf z_i)}}\equiv \Lambda_i$

A probabilidade de log para uma amostra de tamanho é $n$

\ln L = \sum_{i = 1}^{n} [y_{i} \ln (Λ_{i}) + (1 - y_{i}) \ln (1 - Λ_{i})]

$\ln L=\sum_{i=1}^{n}\left[y_i\ln(\Lambda_i)+(1-y_i)\ln(1-\Lambda_i)\right]$

O MLE será encontrado definindo as derivadas iguais a zero. Em particular, queremos

\begin{matrix} (1) & \sum_{i = 1}^{n} (y_{i} - Λ_{i}) = 0 \end{matrix}

$\sum_{i=1}^{n}(y_i-\Lambda_i) = 0 \tag{1}$

\begin{matrix} (2) & \sum_{i = 1}^{n} (y_{i} - Λ_{i}) x_{i} = 0 \end{matrix}

$\sum_{i=1}^{n}(y_i-\Lambda_i)x_i = 0 \tag{2}$

A primeira equação vem de tomar a derivada em relação ao termo constante, a 2 de tomar a derivada em relação a . $X$

Suponha agora que em todos os casos em que temos , e que nunca assume o valor quando . Este é o fenômeno da separação completa, ou "previsão perfeita": se observarmos sabemos que . Se observarmos , sabemos que $y_1 =1$ $x_i = a_k$ $x_i$ $a_k$ $y_i=0$ $x_i = a_k$ $y_i=1$ $x_i \neq a_k$ $y_i=0$ . Isso vale independentemente de, em teoria ou na amostra , ser discreto ou contínuo, dicotômico ou não. Mas também, esse é um fenômeno específico da amostra - não argumentamos que ele se mantenha sobre a população. Mas a amostra específica é o que temos em nossas mãos para alimentar o MLE. $X$

Agora denote a frequência aboluta de por $y_i =1$ $n_y$

\begin{matrix} (3) & n_{y} \equiv \sum_{i = 1}^{n} y_{i} = \sum_{y_{i} = 1} y_{i} \end{matrix}

$n_y \equiv \sum_{i=1}^ny_i = \sum_{y_i=1}y_i \tag{3}$

Podemos então reescrever a eq como $(1)$

\begin{matrix} (4) & n_{y} = \sum_{i = 1}^{n} Λ_{i} = \sum_{y_{i} = 1} Λ_{i} + \sum_{y_{i} = 0} Λ_{i} \Rightarrow n_{y} - \sum_{y_{i} = 1} Λ_{i} = \sum_{y_{i} = 0} Λ_{i} \end{matrix}

$n_y = \sum_{i=1}^n\Lambda_i = \sum_{y_i=1}\Lambda_i+\sum_{y_i=0}\Lambda_i \Rightarrow n_y - \sum_{y_i=1}\Lambda_i = \sum_{y_i=0}\Lambda_i \tag{4}$

Voltando à eq. nós temos $(2)$

\sum_{i = 1}^{n} y_{i} x_{i} - \sum_{i = 1}^{n} Λ_{i} x_{i} = 0 \Rightarrow \sum_{y_{i} = 1} y_{i} a_{k} + \sum_{y_{i} = 0} y_{i} x_{i} - \sum_{y_{i} = 1} Λ_{i} a_{k} - \sum_{y_{i} = 0} Λ_{i} x_{i} = 0

$\sum_{i=1}^{n}y_ix_i -\sum_{i=1}^{n}\Lambda_ix_i = 0 \Rightarrow \sum_{y_i=1}y_ia_k+\sum_{y_i=0}y_ix_i - \sum_{y_i=1}\Lambda_ia_k-\sum_{y_i=0}\Lambda_ix_i =0$

usando temos $(3)$

n_{y} a_{k} + 0 - a_{k} \sum_{y_{i} = 1} Λ_{i} - \sum_{y_{i} = 0} Λ_{i} x_{i} = 0

$n_ya_k + 0 - a_k\sum_{y_i=1}\Lambda_i-\sum_{y_i=0}\Lambda_ix_i =0$

\Rightarrow a_{k} (n_{y} - \sum_{y_{i} = 1} Λ_{i}) - \sum_{y_{i} = 0} Λ_{i} x_{i} = 0

$\Rightarrow a_k\left(n_y-\sum_{y_i=1}\Lambda_i\right) -\sum_{y_i=0}\Lambda_ix_i =0$

e usando obtemos $(4)$

\begin{matrix} (5) & a_{k} \sum_{y_{i} = 0} Λ_{i} x_{i} - \sum_{y_{i} = 0} Λ_{i} x_{i} = 0 \Rightarrow \sum_{y_{i} = 0} (a_{k} - x_{i}) Λ_{i} = 0 \end{matrix}

$a_k\sum_{y_i=0}\Lambda_ix_i -\sum_{y_i=0}\Lambda_ix_i =0 \Rightarrow \sum_{y_i=0}(a_k-x_i)\Lambda_i=0 \tag {5}$

$X$ $(5)$

$y_i=0$ $x_i\neq a_k$
$X$ $(a_k-x_i) \neq 0$ $i$ $(5)$
$X$ $a_k$ $(a_k-x_i) \neq 0$ $i$ $(5)$

$\Lambda_i$ $(5)$ $\Lambda_i=0$ $i$

Λ_{i} = \frac{1}{1 + e^{- g (β_{0}, x_{i}, z_{i})}}

$\Lambda_i = \frac 1{1+e^{-g(\beta_0,x_i, \mathbf z_i)}}$

$\Lambda_i$ $0$ $g(\beta_0,x_i, \mathbf z_i) \rightarrow -\infty$ $g()$

$X$ $a_k$ $(5)$ $(a_k-x_i)$ $(5)$

Não estou dizendo que esse exemplo não crie consequências indesejáveis para as propriedades do estimador, etc: apenas observe que, nesse caso, o algoritmo de estimativa será executado normalmente.

$X$ $a_k$ $(1)$

— Alecos Papadopoulos
fonte

g (\cdot)

$g(\cdot)$

\pm \infty

$\pm \infty$

x_{i} > a

$x_i > a$

Y_{i} = 1

$Y_i = 1$

x_{i} \leq a

$x_i \le a$

Y_{i} = 0

$Y_i = 0$ , digamos, em vez de uma igualdade exata para um determinado valor.

— StasK

a_{k}

$a_k$

O ML não funciona quando as condições de regularidade são violadas. Veja, por exemplo, isso .

— StasK

Eu concordo com você. Minha postagem não discute o contrário. O que eu tentei fazer foi "prever" quando a implementação real do algoritmo MLE , através da tentativa de satisfazer as condições usuais, se decompõe numericamente sob perfeita separação e quando não. Mas meu post não discute a utilidade / significância das estimativas reais que obteremos, no caso em que o algoritmo MLE fornece resultados, e escrevi isso claramente em meu post. Vejo meus exemplos como um aviso: "cuidado - mesmo que exista uma separação perfeita, não confie no algoritmo MLE para informar".

— Alecos Papadopoulos

10^{- 8}

$10^{-8}$ glm