Quando a regressão logística é resolvida de forma fechada?

Tome $x \in \{0,1\}^d$ e $y \in \{0,1\}$ e suponha que modelar a tarefa de prever y dado x meio de regressão logística. Quando os coeficientes de regressão logística podem ser escritos de forma fechada?

Um exemplo é quando usamos um modelo saturado.

Isto é, definir $P(y|x) \propto \exp(\sum_i w_i f_i(x_i))$ , onde $i$ indexa conjuntos no poder-conjunto de $\{x_1,\ldots,x_d\}$ , e $f_i$ retorna 1 se todas as variáveis do $i$ ésimo conjunto forem 1 e 0, caso contrário. Depois, você pode expressar cada $w_i$ neste modelo de regressão logística como um logaritmo de uma função racional de estatísticas dos dados.

Existem outros exemplos interessantes quando existe um formulário fechado?

logistic generalized-linear-model

— Yaroslav Bulatov
fonte

Eu suponho que você quer dizer "quando os MLEs dos parâmetros estão na forma fechada?"

— Glen_b -Reinstate Monica

Você pode dar mais detalhes do que fez? Sua pergunta é como se você tentasse derivar o estimador de mínimos quadrados ordinário para um problema de regressão logística?

— Momo

Obrigado pelo interessante post / pergunta, Yaroslav. Você tem uma referência para o exemplo que você mostra?

— Bitwise

Já faz um tempo, mas possivelmente estava no livro "Modelos Gráficos" de Lauritzen. As bases mais amplas da resposta para esta pergunta está lá - você começa solução fechada quando o (hiper) gráfico formado por estatísticas suficientes é cordal

— Yaroslav Bulatov

Isso pode ser interessante tandfonline.com/doi/abs/10.1080/... Eu acredito que este é um caso especial de uma solução analítica quando você só tem uma tabela 2x2

— Austin

Respostas:

Como kjetil b halvorsen apontou, é, a seu modo, um milagre que a regressão linear admita uma solução analítica. E isso ocorre apenas em virtude da linearidade do problema (com relação aos parâmetros). Em OLS, tem que tem condições de primeira ordem Para um problema com

\sum_{i} (y_{i} - x_{i}^{'} β)^{2} \to min_{β},

$\sum_i (y_i - x_i' \beta)^2 \to \min_\beta,$

- 2 \sum_{i} (y_{i} - x_{i}^{'} β) x_{i} = 0

$-2 \sum_i (y_i - x_i'\beta) x_i = 0$

p

$p$ variáveis (incluindo constante, se necessário, há alguns regressão com os problemas de origem, também), este é um sistema com

equações e

incógnitas. Mais importante ainda, é um sistema linear, para que você possa encontrar uma solução usando a teoria e prática padrão da álgebra linear . Este sistema terá uma solução com probabilidade 1, a menos que você tenha variáveis perfeitamente colineares.

p

$p$

p

$p$

Agora, com a regressão logística, as coisas não são mais tão fáceis. Escrever a função de probabilidade logarítmica, e tomando sua derivada para encontrar o MLE, obtemos

l (y; x, β) = \sum_{i} y_{i} \ln p_{i} + (1 - y_{i}) \ln (1 - p_{i}), p_{i} = (1 + \exp (- θ_{i}))^{- 1}, θ_{i} = x_{i}^{'} β,

$l(y;x,\beta) = \sum_i y_i \ln p_i + (1-y_i) \ln(1-p_i), \quad p_i = (1+\exp(-\theta_i))^{-1}, \quad \theta_i = x_i' \beta,$

Os parâmetros

inserem isso de maneira muito não-linear: para cada

, há uma função não-linear e eles são somados. Não há solução analítica (exceto provavelmente em uma situação trivial com duas observações, ou algo assim), e você deve usarmétodos de otimização não linearpara encontrar as estimativas

\frac{\partial l}{\partial β^{'}} = \sum_{i} \frac{d p_{i}}{d θ} (\frac{y_{i}}{p_{i}} - \frac{1 - y_{i}}{1 - p_{i}}) x_{i} = \sum_{i} [y_{i} - \frac{1}{1 + \exp (x_{i}^{'} β)}] x_{i}

$\frac{\partial l}{\partial \beta'} = \sum_i \frac{{\rm d}p_i}{{\rm d}\theta}\Bigl( \frac{y_i}{p_i} - \frac{1-y_i}{1-p_i} \Bigr)x_i = \sum_i \Bigl[y_i-\frac1{1+\exp(x_i'\beta)}\Bigr]x_i$

β

$\beta$

i

$i$

\hat{β}

$\hat\beta$

Uma análise um pouco mais profunda do problema (usando a segunda derivada) revela que este é um problema de otimização convexa de encontrar o máximo de uma função côncava (uma parábola multivariada glorificada), de modo que qualquer uma delas exista, e qualquer algoritmo razoável deve encontrá-la rapidamente, ou as coisas explodem até o infinito. Este último ocorre com regressão logística quando para alguns ${\rm Prob}[Y_i=1|x_i'\beta > c] = 1$ $c$ , ou seja, você tem uma previsão perfeita. Esse é um artefato bastante desagradável: você pensaria que, quando tem uma previsão perfeita, o modelo funciona perfeitamente, mas, curiosamente, é o contrário.

— StasK
fonte

a questão é por que sua última equação não é solucionável. é devido ao inverso da função logística divergir em 0 e 1, ou é devido à não linearidade em geral?

— eyaler

(+1) Quanto à sua último parágrafo: Do ponto de vista matemático que faz o trabalho "perfeitamente" no sentido de que um MLE vai render um hiperplano de separação perfeita. Se o seu algoritmo numérico se comporta de maneira sensata nessa circunstância é uma questão separada. A suavização de Laplace é frequentemente usada nessas situações.

— cardeal

@eyaler, eu diria que isso se deve à não linearidade em geral. Meu entendimento é que há um conjunto limitado de circunstâncias em que isso pode ser resolvido, embora eu não saiba quais são essas circunstâncias.

— Stask

Não entendo, que condição matemática está presente que faz com que o sistema não tenha uma solução de formulário fechado? Existe uma condição geral em que as coisas em geral não têm soluções fechadas?

— Charlie Parker

o fato de a regressão logística não ter uma forma fechada é algo que se pode provar observando a iteração de gradiente descendente?

— Charlie Parker

Esta postagem foi originalmente planejada como um comentário longo e não como uma resposta completa para a pergunta em questão.

Da questão, é um pouco incerto se o interesse reside apenas no caso binário ou, talvez, em casos mais gerais, onde eles podem ser contínuos ou assumir outros valores discretos.

l o g i t (Pr (Y_{i j} = 1)) = α_{i} - α_{j},

$\mathrm{logit}( \Pr(Y_{ij} = 1) ) = \alpha_i - \alpha_j ,$

α_{i}

$\alpha_i$

i

$i$

Y_{i j} = 1

$Y_{ij} = 1$

i

$i$ foi preferido sobre o item

j

$j$ em uma comparação emparelhada.

$(i,j)$ $\hat{\alpha}_i$ $S_i = \sum_{j \neq i} Y_{ij}$

Para interpretar isso, imagine um torneio round-robin completo no seu esporte competitivo favorito. Então, esse resultado diz que o modelo Bradley – Terry classifica os jogadores / equipes de acordo com a porcentagem de vitórias. Se este é um resultado encorajador ou decepcionante depende do seu ponto de vista, suponho.

Nota: este resultado de classificação não se aplica, em geral, quando um round-robin completo não é jogado.

— cardeal
fonte

Eu estava interessado em binário porque era mais fácil de analisar. Eu encontrei uma condição muito ampla suficiente em obras de Lauritzen - você começa forma fechada se um modelo log-linear correspondente é decomposable

— Yaroslav Bulatov