Por que a regressão logística é um classificador linear?

Como estamos usando a função logística para transformar uma combinação linear da entrada em uma saída não linear, como a regressão logística pode ser considerada um classificador linear?

A regressão linear é como uma rede neural sem a camada oculta, então por que as redes neurais são consideradas classificadores não lineares e a regressão logística é linear?

logistic classification neural-networks

— Jack Twain
fonte

Transformar "uma combinação linear da entrada em uma saída não linear" é uma parte básica da definição de um Classificador Linear . Isso reduz essa questão à segunda parte, o que significa demonstrar que as redes neurais geralmente não podem ser expressas como classificadores lineares.

— whuber

@whuber: Como você explica o fato de que um modelo de regressão logística pode assumir variáveis de previsão polinomiais (por exemplo

) para produzir uma fronteira de decisão não-linear? Ainda é um classificador linear?

w_{1} \cdot x_{1}^{2} + w_{2} \cdot x_{2}^{3}

$w_1 \cdot x_1^2 + w_2 \cdot x_2^3$

— stackoverflowuser2010

@Stack O conceito de "classificador linear" parece originar-se do conceito de modelo linear. A "linearidade" em um modelo pode assumir várias formas, conforme descrito em stats.stackexchange.com/a/148713 . Se aceitarmos a caracterização da Wikipedia de classificadores lineares , seu exemplo polinomial seria visto como não linear em termos dos "recursos" fornecidos

mas seria linear em termos dos recursos

. Essa distinção fornece uma maneira útil de explorar as propriedades da linearidade.

x_{1}

$x_1$

x_{2}

$x_2$

x_{1}^{2}

$x_1^2$

x_{2}^{3}

$x_2^3$

— whuber

Ainda estou um pouco confuso sobre a questão: o limite de decisão de um classificador logístico é linear? Eu segui o curso de aprendizado de máquina de Andrew Ng no Coursera e ele mencionou o seguinte :! [Insira a descrição da imagem aqui ] ( i.stack.imgur.com/gHxfr.png ) Então, na verdade, parece-me que não há ninguém para responder depende da linearidade ou não linearidade do limite de decisão, que depende da função Hipótese definida como Htheta (X) onde X é a entrada e Theta é as variáveis do nosso problema. Isso faz sentido para você?

— brokensword

Respostas:

Regressão logística é linear no sentido de que as previsões pode ser escrito como Deste modo, a previsão pode ser escrita em termos de , que é uma função linear de. (Mais precisamente, as chances de log previstas são uma função linear de.)

\hat{p} = \frac{1 1}{1 1 + e^{- \hat{μ}}}, Onde \hat{μ} = \hat{θ} \cdot x .

$\hat{p} = \frac{1}{1 + e^{-\hat{\mu}}}, \text{ where } \hat{\mu} = \hat{\theta} \cdot x.$

\hat{μ}

$\hat{\mu}$

x

$x$

x

$x$

Por outro lado, não há como resumir a saída de uma rede neural em termos de uma função linear de , e é por isso que as redes neurais são chamadas não lineares. $x$

Além disso, para regressão logística, a fronteira de decisão é linear: é a solução para . O limite de decisão de uma rede neural geralmente não é linear. $\{x:\hat{p} = 0.5\}$ $\hat{\theta} \cdot x = 0$

— Stefan Wager
fonte

Você responde é o mais claro e descomplicado para mim até agora. Mas estou um pouco confuso. Algumas pessoas dizem que as chances de log predicadas são uma função linear de

e outras dizem que é uma função linear de

. Assim?!

x

$x$

θ

$\theta$

— Jack Twain

depois também pela sua explicação. Podemos dizer que a predicação da rede neural é uma função linear das ativações da última camada oculta?

— Jack Twain

O log-probabilidades preditos

é linear em ambos

. Mas geralmente estamos mais interessados no fato de que as chances do log são lineares em

, porque isso implica que o limite de decisão é linear no espaço

\hat{θ} \cdot x

$\hat{\theta} \cdot x$

\hat{θ}

$\hat{\theta}$

x

$x$

x

$x$

x

$x$

— Stefan Wager

Eu tenho usado a definição de que um classificador é linear se seu limite de decisão é linear no espaço

. Isso não é o mesmo que as probabilidades previstas serem lineares em

(o que seria impossível além de casos triviais, pois as probabilidades devem estar entre 0 e 1).

x

$x$

x

$x$

— Stefan Wager

@ Pegah Eu sei que isso é antigo, mas: A regressão logística tem um limite de decisão linear. O próprio resultado não é linear, é claro, sua logística. Dependendo do lado da linha em que um ponto cai, a produção total se aproximará (mas nunca alcançará) 0 ou 1, respectivamente. E para acrescentar à resposta de Stefan Wagners: A última frase não está totalmente correta, uma rede neural não é linear quando contém ativações não lineares ou funções de saída. Mas também pode ser linear (caso não tenham sido adicionadas não linearidades).

— Chris

Como observa Stefan Wagner, o limite de decisão para um classificador logístico é linear. (O classificador precisa que as entradas sejam linearmente separáveis.) Eu queria expandir a matemática para isso, caso não seja óbvio.

\frac{1 1}{1 1 + e^{- θ \cdot x}} = 0,5

${1 \over {1 + e^{-{\theta \cdot x}}}} = 0.5$

1 1 = e^{- θ \cdot x}

${1 = e^{-{\theta \cdot x}}}$

e, tomando o log natural de ambos os lados,

0 0 = - θ \cdot x = - \sum_{Eu = 0 0}^{n} θ_{Eu} x_{Eu}

$0 = -\theta \cdot x = -\sum\limits_{i=0}^{n} \theta_i x_i$

então o limite de decisão é linear.

A razão pela qual o limite de decisão para uma rede neural não é linear é porque existem duas camadas de funções sigmóides na rede neural: uma em cada um dos nós de saída mais uma função sigmóide adicional para combinar e limitar os resultados de cada nó de saída.

— Phil Bogle
fonte

Na verdade, você pode obter um limite de decisão não linear com apenas uma camada tendo uma ativação. Veja o exemplo padrão de um XOR com uma rede de feed-forward de duas camadas.

— James Hirschorn 19/03/19

$C_{0}$ $C_{1}$

P (C_{0 0} | x) = \frac{P (x | C_{0 0}) P (C_{0 0})}{P (x)}

$P(C_{0}|x) = \frac{P(x|C_{0})P(C_{0})}{P(x)}$

P (C_{0 0} | x) = \frac{P (x | C_{0 0}) P (C_{0 0})}{P (x | C_{0 0}) P (C_{0 0}) + P (x | C_{1 1}) P (C_{1 1})} = \frac{1 1}{1 1 + \exp (- registro \frac{P (x | C_{0 0})}{P (x | C_{1 1})} - registro \frac{P (C_{0 0})}{P (C_{1 1})})}

$P(C_{0}|x) = \frac{P(x|C_{0})P(C_{0})}{P(x|C_{0})P(C_{0})+P(x|C_{1})P(C_{1})} = \frac{1}{1+ \exp\left(-\log\frac{P(x|C_{0})}{P(x|C_{1})}-\log \frac{P(C_{0})}{P(C_{1})}\right)}$

1 + e^{ω x}

$1+e^{\omega x}$

P (x | C_{Eu}) = \exp (\frac{θ_{Eu} x - b (θ_{Eu})}{uma (ϕ)} + c (x, ϕ))

$P(x|C_{i}) = \exp \left(\frac{\theta_{i} x -b(\theta_{i})}{a(\phi)}+c(x,\phi)\right)$

registro \frac{P (x | C_{0 0})}{P (x | C_{1 1})} = [(θ_{0 0} - θ_{1 1}) x - b (θ_{0 0}) + b (θ_{1 1})] / uma (ϕ)

$\log\frac{P(x|C_{0})}{P(x|C_{1})} = \left[ (\theta_{0}-\theta_{1})x - b(\theta_{0})+b(\theta_{1}) \right]/a(\phi)$

Observe que assumimos que ambas as distribuições pertencem à mesma família e têm os mesmos parâmetros de dispersão. Mas, sob esse pressuposto, a regressão logística pode modelar as probabilidades para toda a família de distribuições exponenciais.

— jpmuc
fonte