Na classificação binária do Processo Gaussiano, por que as funções sigmóides são preferidas às funções Gaussianas?

Atualmente, estou estudando "Processos Gaussianos para Aprendizado de Máquina" e, no capítulo 3, eles afirmam que o posterior $p(y_*|X,\mathbf{y},\mathbf{x}_*)$ (eq. 3.10) e a variável latente posterior $p(f_*|X,\mathbf{y},\mathbf{x}_*)$ (eq. 3.9) geralmente não pode ser resolvido analiticamente, devido às probabilidades sigmóides em (3.9) e à função sigmóide em (3.10). Para evitar que as pessoas precisem procurar nas equações, elas são as seguintes:

\begin{aligned} p (y_{*} = + 1 | X, y, x_{*}) & = \int σ (f_{*}) p (f_{*} | X, y, x_{*}) d f_{*} & (3.10) \\ p (f_{*} | X, y, x_{*}) & = \int p (f_{*} | X, x_{*}, f) p (f | X, y) d f & (3.9) \end{aligned}

$\begin{align} p(y_*=+1|X,\mathbf{y},\mathbf{x}_*) &= \int\sigma(f_*)\,p(f_*|X,\mathbf{y},\mathbf{x}_*)\,df_*\quad\quad&\mbox{(3.10)} \\ p(f_*|X,\mathbf{y},\mathbf{x}_*) &= \int p(f_*|X,\mathbf{x}_*,\mathbf{f})\,p(\mathbf{f}|X,\mathbf{y})\,d\mathbf{f}&\mbox{(3.9)} \end{align}$

Minha principal pergunta é: para classificação binária com $f$ modelado como um processo gaussiano, por que usar funções sigmóides (em qualquer equação) em vez da função gaussiana

p (y = + 1 | f (x)) = g (f (x)) ≜ \exp {- \frac{f^{2} (x)}{2}} ?

$p(y=+1\,|\,f(\mathbf{x}))=g(f(\mathbf{x}))\triangleq\exp\left\{-\frac{f^2(\mathbf{x})}{2}\right\} \enspace?$ Isso levaria a soluções de formulário fechado para ambas as integrais. A função Gaussiana não é monotônica, como funções sigmóides, mas os GPs podem gerar funções com vários pontos de virada, portanto a monotonicidade parece desnecessária. Para garantir que (3.10) converja para quando estiver longe dos dados de treinamento, presumivelmente seria suficiente atribuir uma média ao : onde é um vetor de e é o número de amostras de treinamento, pois:

\frac{1}{2}

$\frac{1}{2}$

x_{*}

$\mathbf{x_*}$

p (f | X)

$p(\mathbf{f}|X)$

\begin{aligned} E [f | X] & = ω 1_{n} \\ ω & = \sqrt{- 2 \ln \frac{1}{2}}, \end{aligned}

$\begin{align} \mathbb{E}[\mathbf{f}|X] &= \omega\mathbf{1}_n \\ \omega&=\sqrt{-2\ln\frac{1}{2}} \enspace, \end{align}$

1_{n}

$\mathbf{1}_n$

n

$n$

1

$1$

n

$n$

g (ω) = \frac{1}{2} .

$g\left(\omega\right)=\frac{1}{2}\enspace.$

Em contraste com o comportamento das probabilidades sigmóides, as probabilidades gaussianas favoreceriam entradas grandes (positivas ou negativas) em para pontos de entrada rotulados negativamente e pequenas entradas em para pontos rotulados positivamente. $\mathbf{f}$ $\mathbf{f}$

As funções gaussianas levariam a problemas que não ocorrem com sigmóides? Existem documentos nos quais as funções gaussianas foram usadas na classificação binária de GP em vez de sigmóides?

Atualização, 25 de maio de 2017

Em uma reflexão mais aprofundada, a média anterior diferente de zero sugerida acima também ajuda a resolver a ambiguidade sobre qual deve ser o sinal de ( não favorece nenhum dos sinais; ). Resolver essa ambiguidade parece ser importante, porque se a média do anterior, , fosse zero, a média de também seria zero com uma probabilidade definida por , já que a anterior e a probabilidade seriam funções até . Ou seja: $f$ $g$ $g(f(\mathbf{x}))=g(-f(\mathbf{x}))$ $p(\mathbf{f}|X)$ $p(\mathbf{f}|X,\mathbf{y})$ $g$ $\mathbf{f}$

\begin{aligned} p (y | f) & = \prod_{i = 1}^{n} p (y_{i} | f_{i}) \\ p (y_{i} | f_{i}) & = {\begin{cases} g (f_{i}) & , y_{i} = + 1 \\ 1 - g (f_{i}) & , y_{i} = - 1 \end{cases} \\ ∴ E [f | X] = 0 \to p (- f | X, y) & = \frac{p (y | - f) p (- f | X))}{p (y | X)} = \frac{p (y | f) p (f | X))}{p (y | X)} = p (f | X, y) . \end{aligned}

$\begin{align} p(\mathbf{y}|\mathbf{f})&=\prod_{i=1}^n p(\mathbf{y}_i|\mathbf{f}_i) \\ p(\mathbf{y}_i|\mathbf{f}_i) &= \begin{cases} g(\mathbf{f}_i) & ,\;\mathbf{y}_i=+1 \\ 1-g(\mathbf{f}_i) & ,\;\mathbf{y}_i=-1 \end{cases} \\ \therefore \mathbb{E}[\mathbf{f}|X]=\mathbf{0} \enspace\rightarrow\enspace p(-\mathbf{f}|X,\mathbf{y}) &=\frac{p(\mathbf{y}|-\mathbf{f})p(-\mathbf{f}|X))}{p(\mathbf{y}|X)} =\frac{p(\mathbf{y}|\mathbf{f})p(\mathbf{f}|X))}{p(\mathbf{y}|X)} =p(\mathbf{f}|X,\mathbf{y}) \enspace. \end{align}$

Se a média de for zero, os rótulos do conjunto de treinamento não fornecerão nenhuma informação sobre o rótulo do ponto de consulta , portanto, claramente não devemos permita isso. Portanto, além de definir , talvez devêssemos ainda mais para positivo , dando ao desvios padrão relativamente pequenos, por exemplo, , em que é a função de covariância e . Se fizermos isso, nós provavelmente deve também intensificar $p(\mathbf{f}|X,\mathbf{y})$ $\mathbf{y}$ $y_*$ $\mathbb{E}[\mathbf{f}|X]=\omega\mathbf{1}_n$ $p(\mathbf{f}|X,\mathbf{y})$ $\mathbf{f}$ $p(\mathbf{f}|X)$ $\sqrt{k(x,x)}=\frac{\omega}{\beta}$ $k$ $\beta\in[2,3]$ $g$ do argumento, para que não tenha que estar improvável longe da média anterior para produzir pequenos valores de : onde . $\mathbf{f}$ $g$

g (f (x); s) = \exp {- \frac{f^{2} (x)}{2 s^{2}}},

$g(f(\mathbf{x});s)=\exp\left\{-\frac{f^2(\mathbf{x})}{2s^2}\right\}\enspace,$

s < 1

$s<1$

Essa seria uma maneira razoável de corrigir o problema de ambiguidade do sinal ? $f$

— Ose
fonte

Respostas:

Eu acredito que eles mencionaram isso na nota de rodapé do capítulo 3 (primeira página)

Pode-se optar por ignorar a discrição dos valores-alvo e usar um tratamento de regressão, onde todos os alvos são digitados ± 1 para a classificação binária. Isso é conhecido como classificação de mínimos quadrados, consulte a seção 6.5.

Olhando para 6.5, http://www.gaussianprocess.org/gpml/chapters/RW6.pdf, eles mencionam a vantagem de usar funções sigmóides é que as saídas podem ser interpretadas probabilisticamente (ou seja, a probabilidade de um exemplo ter uma resposta positiva) .

— Max S.
fonte

A classificação dos mínimos quadrados não é o que eu tinha em mente, embora seja outra alternativa interessante a ser considerada na classificação binária. O que eu tinha em mente era fazer a classificação binária GP exatamente como descrito no capítulo 3, exceto que toda ocorrência de é substituída pela função gaussiana acima (observe que o máximo de é 1; não é um PDF gaussiano normalizado) , e o anterior recebe a média descrita na minha pergunta.

σ

$\sigma$

g

$g$

g

$g$

p (f | X)

$p(\mathbf{f}|X)$

— Ose 24/05

O problema dessa abordagem é que o número de termos em aumentaria exponencialmente com o número de pontos marcados negativamente no conjunto de treinamento, portanto a solução em forma fechada para (3.9) teria complexidade de tempo exponencial. Mais especificamente, se assumirmos, sem perda de generalidade, que então Para obter uma solução de formulário fechado para (3.9), temos que expandir o primeiro produto em uma soma de funções Gaussianas (não normalizadas), para que possamos integrar cada uma separadamente: $p(\mathbf y|\mathbf f)$

y_{1} = \dots = y_{a} = - 1, y_{a + 1} = \dots = y_{n} = + 1,

$\mathbf y_1=\ldots=\mathbf y_a=-1 \enspace,\enspace \mathbf y_{a+1}=\ldots=\mathbf y_n=+1 \enspace,$

p (y | f) = (\prod_{i = 1}^{a} (1 - g (f_{i}))) \prod_{i = a + 1}^{n} g (f_{i}) .

$p(\mathbf y|\mathbf f) = \left(\prod_{i=1}^a (1-g(\mathbf f_i))\right) \prod_{i=a+1}^n g(\mathbf f_i) \enspace.$

\prod_{i = 1}^{a} (1 - g (f_{i})) = \sum_{I \in P {1, \dots, a}} (- 1)^{| I |} \exp {- \frac{1}{2} \sum_{i \in I} f_{i}^{2}} .

$\prod_{i=1}^a (1-g(\mathbf f_i)) = \sum_{I\in \mathcal{P}\{1,\ldots,a\}} (-1)^{|I|}\exp\left\{ -\frac{1}{2}\sum_{i\in I}\mathbf f^2_i \right\} \enspace.$ Existem conjuntos no conjunto de potência dos índices de pontos marcados negativamente , portanto, resolver (3.9) envolveria computação a integrais gaussianas.

2^{a}

$2^a$

P {1, \dots, a}

$\mathcal P\{1,\ldots,a\}$

{1, \dots, a}

$\{1,\ldots,a\}$

2^{a}

$2^a$

— Ose
fonte