Exemplo de como o truque log-soma-exp funciona em Naive Bayes

Eu li sobre o truque log-soma-exp em muitos lugares (por exemplo , aqui e aqui ), mas nunca vi um exemplo de como ele é aplicado especificamente ao classificador Naive Bayes (por exemplo, com recursos discretos e duas classes)

Como exatamente alguém evitaria o problema de subfluxo numérico usando esse truque?

naive-bayes underflow

— Josh
fonte

Existem vários exemplos de seu uso aqui, embora não necessariamente explicitamente para Bayes ingênuo . No entanto, isso dificilmente importa, já que a idéia do truque é bastante direta e facilmente adaptável.

— Glen_b -Reinstala Monica

É mais provável que o problema esteja abaixo do fluxo excedente.

— Henry

Eu sugiro que você tente uma pesquisa no fluxo insuficiente e atualize sua pergunta para abordar mais especificamente o que já não foi abordado.

— Glen_b -Reinstala Monica

Você também pode esclarecer - este é o ingênuo modelo de Bernoulli Bayes? outra coisa talvez?

— Glen_b -Reinstar Monica

Veja o exemplo aqui , na parte inferior (logo antes de 'See Also', onde eles recebem logs; exponenciando os dois lados, mas deixando o RHS "como estão" (como a exp de uma soma de logs) seria um exemplo do log Isso fornece informações suficientes sobre o seu uso no Naive Bayes para fazer uma pergunta mais específica?

— Glen_b -Reinstate Monica

Respostas:

p (Y = C | x) = \frac{p (x | Y = C) p (Y = C)}{\sum_{k = 1}^{| C |} p (x | Y = C_{k}) p (Y = C_{k})}

$p(Y=C|\mathbf{x}) = \frac{p(\mathbf{x}|Y=C)p(Y=C)}{~\sum_{k=1}^{|C|}{}p(\mathbf{x}|Y=C_k)p(Y=C_k)}$

o denominador e o numerador podem se tornar muito pequenos, geralmente porque pode estar próximo de 0 e multiplicamos muitos deles entre si. Para evitar vazões, pode-se simplesmente pegar o log do numerador, mas é necessário usar o truque log-soma-exp para o denominador. $p(x_i \vert C_k)$

Mais especificamente, para evitar vazões:

Se nós só se preocupam com saber qual classe a entrada provavelmente pertence a com o máximo a posteriori (MAP) regra de decisão, não temos de aplicar o log- truque soma-exp, pois não precisamos calcular o denominador nesse caso. Para o numerador, pode-se simplesmente pegar o log para evitar vazões: $(\hat{y})$ $(\mathbf{x}=x_1, \dots, x_n)$ $log \left( p(\mathbf{x}|Y=C)p(Y=C) \right)$ . Mais especificamente:

$\hat{y} = \underset{k \in {1, \dots, | C |}}{argmax} p (C_{k} | x_{1}, \dots, x_{n}) = \underset{k \in {1, \dots, | C |}}{argmax} p (C_{k}) \prod_{i = 1}^{n} p (x_{i} | C_{k})$ $\hat{y} = \underset{k \in \{1, \dots, |C|\}}{\operatorname{argmax}}p(C_k \vert x_1, \dots, x_n) = \underset{k \in \{1, \dots, |C|\}}{\operatorname{argmax}} \ p(C_k) \displaystyle\prod_{i=1}^n p(x_i \vert C_k)$
que se torna após o registro:

\begin{aligned} \hat{y} & = \underset{k \in {1, \dots, | C |}}{argmax} \log (p (C_{k} | x_{1}, \dots, x_{n})) \\ = \underset{k \in {1, \dots, | C |}}{argmax} \log (p (C_{k}) \prod_{i = 1}^{n} p (x_{i} | C_{k})) \\ = \underset{k \in {1, \dots, | C |}}{argmax} (\log (p (C_{k})) + \sum_{i = 1}^{n} \log (p (x_{i} | C_{k}))) \end{aligned}

$\begin{align} \hat{y} &= \underset{k \in \{1, \dots, |C|\}}{\operatorname{argmax}} \log \left( p(C_k \vert x_1, \dots, x_n) \right)\\ &= \underset{k \in \{1, \dots, |C|\}}{\operatorname{argmax}} \log \left( \ p(C_k) \displaystyle\prod_{i=1}^n p(x_i \vert C_k) \right) \\ &= \underset{k \in \{1, \dots, |C|\}}{\operatorname{argmax}} \left( \log \left( p(C_k) \right) + \ \displaystyle\sum_{i=1}^n \log \left(p(x_i \vert C_k) \right) \right) \end{align}$

$p(Y=C|\mathbf{x})$

$\begin{aligned} \log (p (Y = C | x)) & = \log (\frac{p (x | Y = C) p (Y = C)}{\sum_{k = 1}^{| C |} p (x | Y = C_{k}) p (Y = C_{k})}) \\ = \log (\underset{numerator}{\underset{⏟}{p (x | Y = C) p (Y = C)}}) - \log (\underset{denominator}{\underset{⏟}{\sum_{k = 1}^{| C |} p (x | Y = C_{k}) p (Y = C_{k})}}) \end{aligned}$

$\log \left( ~\sum_{k=1}^{|C|}{}p(\mathbf{x}|Y=C_k)p(Y=C_k) \right)\\$ $p(x_i \vert C_k)$ $p(x_i \vert C_k)$ $\log \left(p(x_i \vert C_k) \right)$ $0 \leq p(x_i \vert C_k) \leq 1$ $p(x_i \vert C_k) = \exp \left( {\log \left(p(x_i \vert C_k) \right)} \right)$

$\log (\sum_{k = 1}^{| C |} p (x | Y = C_{k}) p (Y = C_{k})) = \log (\sum_{k = 1}^{| C |} \exp (\log (p (x | Y = C_{k}) p (Y = C_{k}))))$

$\log \left( p(\mathbf{x}|Y=C_k)p(Y=C_k) \right)$ $\exp \left( \log \left( p(\mathbf{x}|Y=C_k)p(Y=C_k) \right) \right)$

$\log \sum_{k} e^{a_{k}} = \log \sum_{k} e^{a_{k}} e^{A - A} = A + \log \sum_{k} e^{a_{k} - A}$

com:
- $a_k=\log \left( p(\mathbf{x}|Y=C_k)p(Y=C_k) \right)$
- $A = \underset{k \in \{1, \dots, |C|\}} \max a_k.$
Podemos ver que a introdução da variável evita fluxos insuficientes. Por exemplo, com , temos: $A$ $k=2, a_1 = - 245, a_2 = - 255$
- $\exp \left(a_1\right) = \exp \left(- 245\right) =3.96143\times 10^{- 107}$
- $\exp \left(a_2\right) = \exp \left(- 255\right) =1.798486 \times 10^{-111}$
Usando o truque log-sum-exp, evitamos o sub-fluxo, com : $A=\max ( -245, -255 )=-245$ $\begin{align}\log \sum_k e^{a_k} &= \log \sum_k e^{a_k}e^{A-A} \\&= A+ \log\sum_k e^{a_k -A}\\ &= -245+ \log\sum_k e^{a_k +245}\\&= -245+ \log \left(e^{-245 +245}+e^{-255 +245}\right) \\&=-245+ \log \left(e^{0}+e^{-10}\right) \end{align}$

pois está muito mais longe de 0 que ou . $e^{-10}$ $3.96143\times 10^{- 107}$ $1.798486 \times 10^{-111}$

— Franck Dernoncourt
fonte

Suponha que desejemos identificar qual dos dois bancos de dados tem mais probabilidade de gerar uma frase (por exemplo, de qual novela é mais provável que essa frase tenha vindo). Poderíamos assumir a independência das palavras condicionais no banco de dados (suposição de Naive Bayes).

Agora procure o segundo link que você postou. Lá representaria a probabilidade conjunta de observar a sentença dada um banco de dados e os s representariam a probabilidade de observar cada uma das palavras na sentença. $a$ $e^{b_{t}}$

— Sid
fonte

Podemos ver nesta resposta que o menor número em Python (apenas por exemplo) se 5e-324deve ao IEEE754 , e a causa do hardware se aplica a outros idiomas também.

In [2]: np.nextafter(0, 1)
Out[2]: 5e-324

E qualquer flutuação menor que isso levaria a 0.

In [3]: np.nextafter(0, 1)/2
Out[3]: 0.0

E vamos ver a função do Naive Bayes with discrete features and two classesconforme necessário:

p (S = 1 | w_{1}, . . . w_{n}) = \frac{p (S = 1) \prod_{i = 1}^{n} p (w_{i} | S = 1)}{\sum_{s = {0, 1}} p (S = s) \prod_{i = 1}^{n} p (w_{i} | S = s)}

$p(S=1|w_1, ... w_n) = \frac{p(S=1) \prod_{i=1}^n p(\mathbf{w_i}|S=1)}{~\sum_{s=\{0, 1\}}p(S=s)\prod_{i=1}^n p(\mathbf{w_i}|S=s)}$

Permita-me instanciar essa função com uma simples tarefa de PNL abaixo.

Decidimos detectar se o e-mail a chegar é spam ( ) ou não ( ) e temos um vocabulário de palavras de 5.000 em tamanho ( ) e a única preocupação é se ocorrer uma palavra ( ) ( ) no e-mail ou não ( ) por simplicidade ( Bernoulli ingênuo Bayes ). $S=1$ $S=0$ $n=5,000$ $w_i$ $p(w_i|S=1)$ $1-p(w_i|S=1)$

In [1]: import numpy as np
In [2]: from sklearn.naive_bayes import BernoulliNB
# let's train our model with 200 samples
In [3]: X = np.random.randint(2, size=(200, 5000))
In [4]: y = np.random.randint(2, size=(200, 1)).ravel()
In [5]: clf = BernoulliNB()
In [6]: model = clf.fit(X, y)

Podemos ver que seria muito pequeno devido às probabilidades (ambos e estaria entre 0 e 1) em e, portanto, temos certeza de que o produto seria menor que e obtemos . $p(S=s)\prod_{i=1}^n p(\mathbf{w_i}|S=s)$ $p(w_i|S=1)$ $1-p(w_i|S=1)$ $\prod_i^{5000}$ $5e^{-324}$ $0/0$

In [7]: (np.nextafter(0, 1)*2) / (np.nextafter(0, 1)*2)
Out[7]: 1.0

In [8]: (np.nextafter(0, 1)/2) / (np.nextafter(0, 1)/2)
/home/lerner/anaconda3/bin/ipython3:1: RuntimeWarning: invalid value encountered in double_scalars
  #!/home/lerner/anaconda3/bin/python
Out[8]: nan
In [9]: l_cpt = model.feature_log_prob_
In [10]: x = np.random.randint(2, size=(1, 5000))
In [11]: cls_lp = model.class_log_prior_
In [12]: probs = np.where(x, np.exp(l_cpt[1]), 1-np.exp(l_cpt[1]))
In [13]: np.exp(cls_lp[1]) * np.prod(probs)
Out[14]: 0.0

Em seguida, surge o problema: como podemos calcular a probabilidade do email ser um spam ? Ou como podemos calcular o numerador e o denominador? $p(S=1|w_1, ... w_n)$

Podemos ver a implementação oficial no sklearn :

jll = self._joint_log_likelihood(X)
# normalize by P(x) = P(f_1, ..., f_n)
log_prob_x = logsumexp(jll, axis=1)
return jll - np.atleast_2d(log_prob_x).T

Para o numerador, converteu o produto de probabilidades na soma da probabilidade de log e, para o denominador, usou o logsumexp em scipy, que é:

out = log(sum(exp(a - a_max), axis=0))
out += a_max

Como não podemos adicionar duas probabilidades conjuntas adicionando a probabilidade de log conjunto, devemos sair do espaço de log para o espaço de probabilidade. Mas não podemos adicionar as duas probabilidades verdadeiras porque elas são muito pequenas e devemos escalá-las e fazer a adição: e retornar o resultado no espaço do log seguida, redimensione-o novamente: no espaço de log adicionando o . $\sum_{s=\{0,1\}} e^{jll_s - max\_jll}$ $\log\sum_{s=\{0,1\}} e^{jll_s - max\_jll}$ $max\_jll+ \log\sum_{s=\{0,1\}} e^{jll_s - max\_jll}$ $max\_jll$

E aqui está a derivação:

$\begin{align} \log \sum_{s=\{0,1\}} e^{jll_s} & = \log \sum_{s=\{0,1\}} e^{jll_s}e^{max\_jll-max\_jll} \\& = \log e ^{max\_jll}+ \log\sum_{s=\{0,1\}} e^{jll_s - max\_jll} \\& = max\_jll+ \log\sum_{s=\{0,1\}} e^{jll_s - max\_jll} \end{align}$

onde é o no código. $max\_jll$ $a\_max$

Depois de obter o numerador e o denominador no espaço do log, podemos obter a probabilidade condicional do log ( ) subtraindo o denominador do numerador : $\log p(S=1|w_1, ... w_n)$

return jll - np.atleast_2d(log_prob_x).T

Espero que ajude.

Referência:
1. Classificador Bernoulli Naive Bayes
2. Filtragem de Spam com Naive Bayes - Que Naive Bayes?

— Lerner Zhang
fonte