Eu acho que sei o que o orador estava falando. Pessoalmente, eu não concordo completamente com ela, e muitas pessoas não concordam. Mas, para ser justo, também existem muitos que o fazem :) Primeiro, observe que especificar a função de covariância (kernel) implica especificar uma distribuição anterior sobre as funções. Apenas mudando o kernel, as realizações do Processo Gaussiano mudam drasticamente, das funções muito suaves e infinitamente diferenciáveis geradas pelo kernel Squared Exponential
para as funções "pontiagudas" e indiferenciadas correspondentes a um kernel Exponencial (ou Kernel Matern com )ν= 1 / 2
Outra maneira de ver isso é escrever a média preditiva (a média das previsões do Processo Gaussiano, obtida condicionando o GP nos pontos de treinamento) em um ponto de teste , no caso mais simples de uma função média zero:x∗
y∗= k∗ T( K+ σ2Eu)- 1y
onde é o vetor de covariâncias entre o ponto de teste e os pontos de treinamento , é a matriz de covariância dos pontos de treinamento, é o termo do ruído (basta definir se a sua palestra se referir a previsões sem ruído, ou seja, interpolação do Processo Gaussiano) e é o vetor de observações no conjunto de treinamento. Como você pode ver, mesmo que a média do GP anterior seja zero, a média preditiva não é zero e, dependendo do kernel e do número de pontos de treinamento, pode ser um modelo muito flexível, capaz de aprender extremamente padrões complexos.x ∗ x 1 ,…, x n Kσσ=0 y =( y 1 ,…, y n )k∗x∗x1 1, … , XnKσσ= 0y =( y1 1, … , Yn)
De um modo mais geral, é o kernel que define as propriedades de generalização do GP. Alguns núcleos têm a propriedade de aproximação universal , ou seja, são, em princípio, capazes de aproximar qualquer função contínua em um subconjunto compacto, a qualquer tolerância máxima pré-especificada, considerando pontos de treinamento suficientes.
Então, por que você deveria se importar com a função média? Antes de tudo, uma função média simples (polinomial linear ou ortogonal) torna o modelo muito mais interpretável, e essa vantagem não deve ser subestimada para um modelo tão flexível (portanto, complicado) quanto o GP. Em segundo lugar, de alguma forma, o GP com média zero (ou, pelo que vale a pena, também com a constante) é um tipo de sucção na previsão distante dos dados de treinamento. Muitos núcleos estacionários (exceto os periódicos) são tais que paradist ( x i , x ∗ ) → ∞ y ∗ ≈ 0k ( xEu- x∗) → 0dist( xEu, x∗) → ∞. Essa convergência para 0 pode ocorrer surpreendentemente rapidamente, especialmente com o núcleo exponencial ao quadrado e, principalmente, quando é necessário um curto período de correlação para ajustar-se bem ao conjunto de treinamento. Assim, um GP com função média zero invariavelmente prediz assim que você se afastar do conjunto de treinamento.y∗≈ 0
Agora, isso pode fazer sentido em seu aplicativo: afinal, geralmente é uma má idéia usar um modelo orientado a dados para realizar previsões distantes do conjunto de pontos de dados usados para treinar o modelo. Veja aqui muitos exemplos interessantes e divertidos de por que isso pode ser uma má ideia. Nesse aspecto, o GP médio zero, que sempre converge para 0 fora do conjunto de treinamento, é mais seguro que um modelo (como, por exemplo, um modelo polinomial ortogonal multivariado de alto grau), que disparará alegremente previsões insanamente grandes assim que você se afasta dos dados de treinamento.
Em outros casos, no entanto, você pode querer que seu modelo tenha um determinado comportamento assintótico, que não deve convergir para uma constante. Talvez a consideração física lhe diga que, para suficientemente grande, seu modelo deve se tornar linear. Nesse caso, você deseja uma função média linear. Em geral, quando as propriedades globais do modelo são de interesse para a sua aplicação, você deve prestar atenção na escolha da função média. Quando você está interessado apenas no comportamento local (próximo aos pontos de treinamento) do seu modelo, um GP médio zero ou constante pode ser mais que suficiente.x∗