Entendendo os parâmetros da função da Base Gaussiana a serem usados na regressão linear

12

Eu gostaria de aplicar a função de base gaussiana em uma implementação de regressão linear. Infelizmente, estou tendo dificuldade para entender alguns parâmetros na função base. Especificamente $\mu$ e $\sigma$ .

Meu conjunto de dados é uma matriz de 10.000 x 31. 10.000 amostras e 31 recursos. Eu li que "Cada função básica converte o vetor de entrada x em um valor escalar". Então, eu suponho que x é 1 amostra para um vetor 1 x 31. A partir daqui estou confuso. Qual é exatamente o parâmetro $\mu_j$ ? Eu li que isso governa os locais das funções básicas. Então não é isso que significa alguma coisa? Também estou impressionado com o índice j ( $\mu$ e $\phi$ ), isso me faz pensar na jª linha. Mas isso não parece fazer sentido. O $\mu_j$ um vetor? Agora para o $\sigma$ que "governa a escala espacial". O que exatamente é isso? Eu já vi algumas implementações que tentam valores como .1, .5, 2.5 para esse parâmetro. Como esses valores são calculados? Tenho pesquisado e procurado exemplos para aprender, mas ainda não consegui encontrar nenhum. Qualquer ajuda ou direção é muito apreciada! Obrigado.

regression machine-learning basis-function

— user2743
fonte

11

Como você está confuso, deixe-me começar relatando o problema e respondendo suas perguntas uma a uma. Você tem um tamanho de amostra de 10.000 e cada amostra é descrita por um vetor de recurso . Se você deseja executar a regressão usando funções de base radial gaussiana, procura uma função da forma onde $x\in\mathbb{R}^{31}$

f (x) = \sum_{j} w_{j} * g_{j} (x; μ_{j}, σ_{j}), j = 1.. m

$f(x) = \sum_{j}{w_j * g_j(x; \mu_j,\sigma_j}), j=1..m$

g_{i}

$g_i$ são o seu funções básicas. Especificamente, você precisa encontrar os

pesos

m

$m$

modo que, para os parâmetros determinados

e

você minimiza o erro entre

w_{j}

$w_j$

μ_{j}

$\mu_j$

σ_{j}

$\sigma_j$

y

$y$ e o correspondente predição

=

- tipicamente vai minimizar o erro de mínimos quadrados.

\hat{y}

$\hat{y}$

f (\hat{x})

$f(\hat{x})$

O que exatamente é o parâmetro Mu subscrito j?

Você precisa encontrar funções . (Você ainda precisa determinar o número ) Cada função básica terá um e um $m$ $g_j$ $m$ $\mu_j$ $\sigma_j$ (também desconhecido). O índice varia de a . $j$ $1$ $m$

O um vetor? $\mu_j$

Sim, é um ponto em . Em outras palavras, é um ponto em seu espaço de recurso e umdeve ser determinado para cada uma dasfunções básicas. $\mathbb{R}^{31}$ $\mu$ $m$

Eu li que isso governa os locais das funções básicas. Então não é isso que significa alguma coisa?

O função base está centrada em . Você precisará decidir onde esses locais estão. Portanto, não, não é necessariamente o meio de nada (mas veja mais abaixo maneiras de determiná-lo) $j^{th}$ $\mu_j$

Agora, o sigma que "governa a escala espacial". O que exatamente é isso?

é mais fácil de entender se recorrermos às funções básicas. $\sigma$

Ela ajuda a pensar nas funções de base radial de Gauss em dimensons mais baixos, dizem ou . Em a função de base radial Gaussiana é apenas a curva de sino conhecido. O sino pode, é claro, ser estreito ou largo. A largura é determinada por - quanto maior mais estreita é a forma do sino. Em outras palavras, $\mathbb{R}^{1}$ $\mathbb{R}^{2}$ $\mathbb{R}^{1}$ $\sigma$ $\sigma$ $\sigma$ escala a largura da forma do sino. Portanto, para = 1, não temos escala. Para grandes $\sigma$ , temos escala substancial. $\sigma$

Você pode perguntar qual é o objetivo disso. Se você pensar na campainha cobrindo uma parte do espaço (uma linha em ) - uma campainha estreita cobrirá apenas uma pequena parte da linha *. Os pontos próximos ao centro do sino terão um valor maior de . Os pontos distantes do centro terão um valor menor de . A escala tem o efeito de empurrar pontos para mais longe do centro - à medida que a campainha estreita, os pontos serão localizados mais longe do centro - reduzindo o valor de $\mathbb{R}^{1}$ $x$ $g_j(x)$ $g_j(x)$ $g_j(x)$

Cada função base converte o vetor de entrada x em um valor escalar

Sim, você está avaliando as funções básicas em algum momento $\mathbf{x}\in\mathbb{R}^{31}$ .

\exp (- \frac{‖ x - μ_{j} ‖_{2}^{2}}{2 * σ_{j}^{2}})

$\exp\left({-\frac{\|\mathbf{x}-\mu_j\|_2^2}{2*\sigma_j^2}}\right)$

Você obtém um escalar como resultado. O resultado escalar depende da distância do ponto do centro $\mathbf{x}$ $\mu_j$ dado por e do escalar . $\|\mathbf{x}-\mu_j\|$ $\sigma_j$

Eu já vi algumas implementações que tentam valores como .1, .5, 2.5 para esse parâmetro. Como esses valores são calculados?

É claro que esse é um dos aspectos interessantes e difíceis do uso de funções de base radial gaussiana. se você pesquisar na web, encontrará muitas sugestões sobre como esses parâmetros são determinados. Descreverei em termos muito simples uma possibilidade baseada no agrupamento. Você pode encontrar essa e várias outras sugestões online.

Comece agrupando suas 10000 amostras (você pode primeiro usar o PCA para reduzir as dimensões seguidas pelo armazenamento em cluster k-Means). Você pode permitir que seja o número de clusters encontrados (normalmente empregando validação cruzada para determinar o melhor ). Agora, crie uma função de base radial para cada cluster. Para cada função de base radial, $m$ $m$ $g_j$ $\mu_j$ é o centro (por exemplo, média, centróide, etc.) do cluster. Deixe refletir a largura do cluster (por exemplo, raio ...) Agora vá em frente e faça sua regressão (esta descrição simples é apenas uma visão geral - ele precisa de muito trabalho a cada etapa!) $\sigma_j$

* Obviamente, a curva de sino é definida de - a $\infty$ portanto terá um valor em qualquer lugar da linha. No entanto, os valores longe do centro são insignificantes $\infty$

— martino
fonte

Boa resposta! No entanto, procurando por

, não terminamos com a regressão da máquina de vetores de suporte (com kernel gaussiano)?

μ

$\mu$

— O_Devinyak

@ O_Devinyak- Muitos métodos de expansão de base exigirão algum tipo de estimativa de parâmetro. Existem muitas maneiras de encontrar

então eu não acho que isso significa necessariamente que estamos reduzindo o problema ao SVR. Para ser sincero, não sou especialista em SVR, mas a função de perda minimizada é certamente diferente e tenho certeza de que muitos dos recursos são ignorados - é o caminho do vetor de suporte. Com funções básicas, usamos todas as funções para avaliação, mas, felizmente, o suporte compacto significa que muitas das funções básicas retornam valores nulos ou nulos. Enfim, seria uma boa pergunta sobre este fórum

μ

$\mu$

— martino 15/10

Por que precisamos de uma escala

em vez de uma matriz de covariância que fazer a função de base parece que a parte exponencial de um Gaussian multivariada?

σ_{j}

$\sigma_j$

— stackunderflow

1

Deixe-me tentar dar uma explicação simples. Em tal notação, pode ser o número da linha, mas também pode ser o número da característica. Se escrevermos então indica o número da característica, é o vetor da coluna , é o vetor da coluna, é escalar e é o vetor da coluna. Se escrevermos $j$ $y=\beta_0+\sum_{j=1:31}{\beta_j\phi_j(x)}$ $j$ $y$ $\beta_j$ $\phi_j(x)$ então $y_j=\beta\phi_j(x)$ indica o número da linha, é escalar,é o vetor da linha. A notação em que denota linha e denota coluna é mais comum, portanto, vamos usar a primeira variante. $j$ $y_j$ $\beta$ é vetor de coluna e $\phi_j(x)$ $i$ $j$

Apresentando função gaussiana base em regressão linear, (escalar) já não depende dos valores numéricos das características (vector), mas sobre as distâncias entre e o centro de todos os outros pontos . Em tal forma não depende de se valor característica -ésimo de observação -ésimo é alta ou pequena, mas depende de se valor característica -ésimo está perto ou longe da média para que -feature . então $y_i$ $x_i$ $x_i$ $\mu_i$ $y_i$ $j$ $i$ $j$ $j$ $\mu_{ij}$ $\mu_j$ não é um parâmetro, pois não pode ser ajustado. É apenas uma propriedade de um conjunto de dados. O parâmetro é um valor escalar, controla a suavidade e pode ser ajustado. Se for pequena, as pequenas mudanças na distância terão um grande efeito (lembre-se de uma gaussiana acentuada: todos os pontos já localizados a uma pequena distância do centro têm valores minúsculos ). Se for grande, as pequenas mudanças na distância terão um efeito baixo (lembre-se de gaussiano plano: a diminuição de com o aumento da distância do centro é lenta). O valor ideal de deve ser procurado (geralmente é encontrado com validação cruzada). $\sigma^2$ $y$ $y$ $\sigma^2$

— O_Devinyak
fonte

0

$x\in\mathbb{R}^{31}$ $\mu_j\in\mathbb{R}^{31}$ $e^{(x-\mu_j)'\Sigma_j^{-1}(x-\mu_j)}$ $\Sigma_j\in\mathbb{R}^{31\times 31}$ $j$ $j$ vetor de th. Similarmente, $\Sigma_j$ $j$

— Karel Macek
fonte

Entendendo os parâmetros da função da Base Gaussiana a serem usados ​​na regressão linear

Entendendo os parâmetros da função da Base Gaussiana a serem usados na regressão linear