Mapa de recursos do kernel gaussiano

24

No SVM, o kernel gaussiano é definido como: onde . Não conheço a equação explícita de . Eu quero saber.

K (x, y) = \exp (- \frac{‖ x - y ‖_{2}^{2}}{2 σ^{2}}) = ϕ (x)^{T} ϕ (y)

$K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)$

x, y \in R^{n}

$x, y\in \mathbb{R^n}$

ϕ

$\phi$

Eu também quero saber se

\sum_{i} c_{i} ϕ (x_{i}) = ϕ (\sum_{i} c_{i} x_{i})

$\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right)$ onde

c_{i} \in R

$c_i\in \mathbb R$ . Agora, acho que não é igual, porque o uso de um kernel lida com a situação em que o classificador linear não funciona. Eu sei que

ϕ

$\phi$ projeta x para um espaço infinito. Portanto, se ele ainda permanecer linear, não importa quantas dimensões, svm ainda não poderá fazer uma boa classificação.

machine-learning svm kernel-trick

— Vivian
fonte

por que esse kernel implica uma transformação? Ou você está se referindo ao espaço de recurso associado?

— Placidia

Sim, qual é o espaço de recurso para que

ϕ (\cdot)

$\phi(\cdot)$

ϕ^{T} (x) ϕ (x^{^{'}}) = e x p (- \frac{1}{2 σ^{2}} ‖ x - x^{^{'}} ‖^{2})

$\phi^T(x)\phi(x^{'}) = exp(-\frac{1}{2\sigma^2}\|x-x^{'}\|^2)$

— user27886

20

Você pode obter a equação explícita de para o kernel gaussiano através da expansão da série Tailor de . Para simplificar a notação, assuma : $\phi$ $e^x$ $x\in \mathbb{R}^1$

ϕ (x) = e^{- x^{2} / 2 σ^{2}} [1, \sqrt{\frac{1}{1! σ^{2}}} x, \sqrt{\frac{1}{2! σ^{4}}} x^{2}, \sqrt{\frac{1}{3! σ^{6}}} x^{3}, \dots]^{T}

$\phi(x) = e^{-x^2/2\sigma^2} \Big[ 1, \sqrt{\frac{1}{1!\sigma^2}}x,\sqrt{\frac{1}{2!\sigma^4}}x^2,\sqrt{\frac{1}{3!\sigma^6}}x^3,\ldots\Big]^T$

Isso também é discutido em mais detalhes nesses slides por Chih-Jen Lin, da NTU (slide 11 especificamente). Observe que nos slides é usado como parâmetro do kernel. $\gamma=\frac{1}{2\sigma^2}$

A equação no OP vale apenas para o kernel linear.

— Marc Claesen
fonte

2

Olá, mas esta equação acima serve apenas uma dimensão.

— Vivian

Então, aqui, o espaço Hilbert do kernel em reprodução é um subespaço de , correto?

ℓ^{2}

$\ell^2$

— The_Anomaly 17/05

Existe também uma representação explícita do kernel da Lapônia?

— Felix Crazzolara 23/06

13

Para qualquer kernel psd válido , existe um mapa de recursos tal que . O espaço e embedding na verdade não precisam ser exclusivos, mas existe um par exclusivo importante conhecido como espaço Hilbert em reprodução (RKHS). $k : \mathcal X \times \mathcal X \to \mathbb R$ $\varphi : \mathcal X \to \mathcal H$ $k(x, y) = \langle \varphi(x), \varphi(y) \rangle_{\mathcal H}$ $\mathcal H$ $\varphi$ $(\mathcal H, \varphi)$

O RKHS é discutido por: Steinwart, Hush and Scovel, uma descrição explícita dos espaços de Hilbert do núcleo reprodutor dos núcleos Gaussian RBF , transações do IEEE sobre a teoria da informação 2006 ( doi , livre citeseer pdf ).

É um pouco complicado, mas tudo se resume a isso: defina como $e_n : \mathbb C \to \mathbb C$

e_{n} (z) := \sqrt{\frac{(2 σ^{2})^{n}}{n!}} z^{n} e^{- σ^{2} z^{2}} .

$e_n(z) := \sqrt{\frac{(2 \sigma^2)^n}{n!}} z^n e^{-\sigma^2 z^2} .$

Seja uma sequência que varia entre todos os pares de números inteiros não negativos; se , talvez , , e assim por diante. Indique o ésimo componente da ésima tupla por . $n : \mathbb{N}_0 \to \mathbb{N}_0^d$ $d$ $d = 3$ $n(0) = (0, 0, 0)$ $n(1) = (0, 0, 1)$ $n(2) = (0, 1, 1)$ $j$ $i$ $n_{ij}$

Então o ésimo componente de é . Então mapeia vetores em para vetores complexos de dimensão infinita. $i$ $\varphi(x)$ $\prod_{j=1}^d e_{n_{ij}}(x_j)$ $\varphi$ $\mathbb R^d$

O problema disso é que ainda precisamos definir normas para esses vetores complexos de dimensão infinita de uma maneira especial; consulte o documento para obter detalhes.

Steinwart et al. também dá uma incorporação mais direta (a meu ver) a , o espaço Hilbert de funções quadráticas integráveis de : Note-se que é ela própria uma função de a . É basicamente a densidade de um Gaussiano dimensional com média e covariância ; somente a constante de normalização é diferente. Assim, quando tomamos $L_2(\mathbb R^d)$ $\mathbb R^d \to \mathbb R$

Φ_{σ} (x) = \frac{(2 σ)^{\frac{d}{2}}}{π^{\frac{d}{4}}} e^{- 2 σ^{2} ‖ x - \cdot ‖_{2}^{2}} .

$\Phi_\sigma(x) = \frac{(2 \sigma)^{\frac{d}{2}}}{\pi^{\frac{d}{4}}} e^{- 2 \sigma^2 \lVert x - \cdot \rVert_2^2} .$

Φ_{σ} (x)

$\Phi_\sigma(x)$

R^{d}

$\mathbb R^d$

R

$\mathbb R$

d

$d$

x

$x$

\frac{1}{4 σ^{2}} I

$\frac{1}{4 \sigma^2} I$

⟨ Φ (x), Φ (y) ⟩_{L_{2}} = \int [Φ (x)] (t) [Φ (y)] (t) d t,

$\langle \Phi(x), \Phi(y) \rangle_{L_2} = \int [\Phi(x)](t) \; [\Phi(y)](t) \,\mathrm d t ,$ estamos pegando o produto das funções de densidade gaussiana , que em si é um certo tempo constante de funções de densidade gaussiana. Quando você faz essa integral por , a constante que cai acaba sendo exatamente .

t

$t$

k (x, y)

$k(x, y)$

Estes não são os únicos casamentos que funcionam.

Outra é baseada na transformação de Fourier, que o célebre artigo de Rahimi e Recht ( Recursos Aleatórios para Máquinas de Kernel em Grande Escala , NIPS 2007) se aproxima com grande efeito.

Você também pode fazer isso usando a série Taylor: efetivamente a versão infinita de Cotter, Keshet e Srebro, aproximações explícitas do kernel gaussiano , arXiv: 1109.4603 .

— Dougal
fonte

1

Douglas Zare deu uma versão 1d da incorporação "mais direta" em um tópico interessante aqui .

— Dougal

Aqui você encontra uma explicação mais "intuitiva" de que o

pode mapear em um pedaço de dimensão igual ao tamanho da amostra de treinamento, mesmo para uma amostra infinita de treinamento: stats.stackexchange.com/questions/80398/…

Φ

$\Phi$

6

Parece-me que sua segunda equação só será verdadeira se for um mapeamento linear (e, portanto, for um núcleo linear). Como o núcleo gaussiano não é linear, a igualdade não se mantém (exceto talvez no limite, pois vai a zero). $\phi$ $K$ $\sigma$

— Dikran Marsupial
fonte

Obrigado pela sua resposta. Quando

, a dimensão dos projetos do kernel gaussiano aumentaria. E por sua inspiração, agora acho que não é igual. Porque, usar o kernel apenas lida com a situação em que a classificação linear não funciona.

σ \to 0

$\sigma\rightarrow 0$

— Vivian