Por que a função média no Processo Gaussiano é desinteressante?


28

Acabei de começar a ler sobre GPs e, de forma análoga à distribuição gaussiana regular, ela é caracterizada por uma função média e a função de covariância ou o kernel. Eu estava conversando e o palestrante disse que a função média geralmente é bastante desinteressante e todo o esforço de inferência é gasto na estimativa da função de covariância correta.

Alguém pode me explicar por que esse deveria ser o caso?

Respostas:


33

Eu acho que sei o que o orador estava falando. Pessoalmente, eu não concordo completamente com ela, e muitas pessoas não concordam. Mas, para ser justo, também existem muitos que o fazem :) Primeiro, observe que especificar a função de covariância (kernel) implica especificar uma distribuição anterior sobre as funções. Apenas mudando o kernel, as realizações do Processo Gaussiano mudam drasticamente, das funções muito suaves e infinitamente diferenciáveis ​​geradas pelo kernel Squared Exponential

insira a descrição da imagem aqui

para as funções "pontiagudas" e indiferenciadas correspondentes a um kernel Exponencial (ou Kernel Matern com )ν=1/2

insira a descrição da imagem aqui

Outra maneira de ver isso é escrever a média preditiva (a média das previsões do Processo Gaussiano, obtida condicionando o GP nos pontos de treinamento) em um ponto de teste , no caso mais simples de uma função média zero:x

y=kT(K+σ2I)1y

onde é o vetor de covariâncias entre o ponto de teste e os pontos de treinamento , é a matriz de covariância dos pontos de treinamento, é o termo do ruído (basta definir se a sua palestra se referir a previsões sem ruído, ou seja, interpolação do Processo Gaussiano) e é o vetor de observações no conjunto de treinamento. Como você pode ver, mesmo que a média do GP anterior seja zero, a média preditiva não é zero e, dependendo do kernel e do número de pontos de treinamento, pode ser um modelo muito flexível, capaz de aprender extremamente padrões complexos.x x 1 ,, x n Kσσ=0 y =( y 1 ,, y n )kxx1 1,...,xnKσσ=0 0y=(y1 1,...,yn)

De um modo mais geral, é o kernel que define as propriedades de generalização do GP. Alguns núcleos têm a propriedade de aproximação universal , ou seja, são, em princípio, capazes de aproximar qualquer função contínua em um subconjunto compacto, a qualquer tolerância máxima pré-especificada, considerando pontos de treinamento suficientes.

Então, por que você deveria se importar com a função média? Antes de tudo, uma função média simples (polinomial linear ou ortogonal) torna o modelo muito mais interpretável, e essa vantagem não deve ser subestimada para um modelo tão flexível (portanto, complicado) quanto o GP. Em segundo lugar, de alguma forma, o GP com média zero (ou, pelo que vale a pena, também com a constante) é um tipo de sucção na previsão distante dos dados de treinamento. Muitos núcleos estacionários (exceto os periódicos) são tais que paradist ( x i , x ) y 0k(xEu-x)0 0dist(xEu,x). Essa convergência para 0 pode ocorrer surpreendentemente rapidamente, especialmente com o núcleo exponencial ao quadrado e, principalmente, quando é necessário um curto período de correlação para ajustar-se bem ao conjunto de treinamento. Assim, um GP com função média zero invariavelmente prediz assim que você se afastar do conjunto de treinamento.y0 0

Agora, isso pode fazer sentido em seu aplicativo: afinal, geralmente é uma má idéia usar um modelo orientado a dados para realizar previsões distantes do conjunto de pontos de dados usados ​​para treinar o modelo. Veja aqui muitos exemplos interessantes e divertidos de por que isso pode ser uma má ideia. Nesse aspecto, o GP médio zero, que sempre converge para 0 fora do conjunto de treinamento, é mais seguro que um modelo (como, por exemplo, um modelo polinomial ortogonal multivariado de alto grau), que disparará alegremente previsões insanamente grandes assim que você se afasta dos dados de treinamento.

Em outros casos, no entanto, você pode querer que seu modelo tenha um determinado comportamento assintótico, que não deve convergir para uma constante. Talvez a consideração física lhe diga que, para suficientemente grande, seu modelo deve se tornar linear. Nesse caso, você deseja uma função média linear. Em geral, quando as propriedades globais do modelo são de interesse para a sua aplicação, você deve prestar atenção na escolha da função média. Quando você está interessado apenas no comportamento local (próximo aos pontos de treinamento) do seu modelo, um GP médio zero ou constante pode ser mais que suficiente.x


Delta, você sabe o que seria uma boa função média?
Um velho no mar.

11
@Anoldmaninthesea depende muito da aplicação. Como expliquei, a menos que você precise de um modelo interpretável ou esteja interessado em previsões "distantes" do seu conjunto de treinamento, provavelmente seria melhor concentrar seus esforços em melhorar a função de covariância, em vez da função média
DeltaIV

11
Delta, bem, no meu caso, preciso tentar fazer algumas previsões que podem estar muito longe dos dados observados ... Fiz essa pergunta aqui stats.stackexchange.com/questions/375468/…
Um homem velho no mar.

6

Não podemos falar em nome da pessoa que estava dando a palestra; talvez o orador tenha uma idéia diferente em mente quando o fez. No entanto, no caso de você estar tentando construir previsões posteriores a partir de um GP, uma função média constante possui uma solução de forma fechada que pode ser calculada exatamente. No entanto, no caso de uma função média mais geral, você deve recorrer a métodos aproximados, por exemplo, simulação.

Além disso, a função de covariância controla a rapidez (e onde) os desvios da função média ocorrem, por isso é comum que uma função de covariância mais flexível / rígida possa ser "boa o suficiente" para aproximar uma função média mais ornamentada - o que novamente concede acesso às propriedades de conveniência de uma função média constante.


Obrigado por essa explicação. Sim, eu não poderia fazer minha pergunta e estava me perguntando se existe uma razão de princípios para isso.
Luca

6

Vou lhe dar uma explicação que provavelmente não foi feita pelo orador. Em algumas aplicações, os meios são sempre chatos. Por exemplo, digamos que estamos prevendo vendas com o modelo autoregressivo . A média de longo prazo é obviamente . Isto é interessante? E [ y t ] μ = cyt=c+γyt1+etE[yt]μ=c1γ

Depende do seu objetivo. Se você estiver atrás da avaliação da loja, ele informará que você deve aumentar ou diminuir para aumentar o valor da loja, porque o valor é dado por: onde é o fator de desconto. Então, a média é claramente interessante.γ V = μcγ r

V=μr
r

Se você estiver interessado na liquidez, ou seja, você tem dinheiro suficiente para cobrir as despesas nos próximos dois meses, a média é quase irrelevante. Você está olhando para a previsão de caixa do próximo mês: Portanto, as vendas deste mês são um fator agora.y 0

y1=c+γy0 0
y0 0

6

Bem, uma boa razão é que a função média pode não estar no espaço de funções que você deseja modelar. cada ponto de entrada, , pode ter uma média posterior correspondente, . No entanto, esses pontos médios posteriores são a expectativa antes que você veja outros dados. Portanto, existem muitos casos em que nenhuma situação em que os dados futuros observados criarão essa função média. μ ( x i )xEuμ(xEu)

Exemplo simples: imagine ajustar uma função senoidal com deslocamento desconhecido, mas com período conhecido e amplitude um. A média anterior é zero para todos os mas uma linha constante não vive no espaço das funções senoidais que descrevemos. A função de covariância nos fornece essas informações estruturais adicionais.x


0

Simplificando, a função média domina a função de covariância para entradas 'distantes' das observações.
É uma maneira de injetar seu conhecimento prévio na macro dinâmica do seu sistema.


11
Eu não entendo sua resposta. Você poderia esclarecer?
Michael R. Chernick 17/10
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.