O processo gaussiano (regressão) tem a propriedade de aproximação universal?


10

Pode qualquer função contínua em [a, b], onde aeb são números reais, ser aproximada ou arbitrariamente próxima da função (em alguma norma) pelos Processos Gaussianos (Regressão)?


11
Seja mais específico!
Henry.L

11
sim! Bem, na verdade, depende da função de covariância, mas para alguns deles, eles o fazem . Dustin Tran et al. também provou um teorema de aproximação universal na estrutura bayesiana para o Processo Gaussiano Variacional , que é um modelo mais complexo por causa das funções de distorção, mas está intimamente relacionado. Escreverei uma resposta se a pergunta for reaberta. O PS nota que a aproximação universal, como nas redes neurais, se mantém apenas sobre um conjunto compacto, não sobre todo o . Rp
DeltaIV 19/03/19

3
A afirmação de "aproximação universal" nesta pergunta parece ter pouco ou nada a ver com a afirmação no artigo referenciado da Wikipedia. De fato, nem está claro como alguém pode se aproximar de uma função com um processo . Você poderia elaborar o que está tentando perguntar?
whuber

5
@whuber Embora os aspectos técnicos possam ser um pouco frouxos, acho que a pergunta significa essencialmente "Para uma função de entrada , existe a realização de um GP específico que é arbitrariamente próximo de (em alguma norma)?" Ou talvez: "Como observamos infinitamente muitos pontos de amostra de uma função e realizamos inferência padrão do GP com esses dados, a função média posterior aprendida se aproxima da verdadeira função (em algum sentido)?" É claro que essas duas são propriedades diferentes, mas eu as consideraria próximas o suficiente para serem responsáveis ​​(e, portanto, dar o quinto voto de reabertura). ffff
Dougal

11
Talvez você queira provar convergência em vez de aproximação. Caso contrário, a prova é simples: você pode assumir a função como anterior para a média. Não é muito mais que , mas funciona. x=x
precisa

Respostas:


16

Como observa @Dougal, existem duas maneiras diferentes pelas quais sua pergunta pode ser interpretada. Eles estão intimamente relacionados, mesmo que não pareça.

A primeira interpretação é: seja um subconjunto compacto de (a compactação é fundamental para todos os itens a seguir !!!), seja um função de covariância contínua (ou kernel) definida em e denota com o espaço normalizado de funções contínuas em , equipado com a norma máxima . Para qualquer função , pode ser aproximada a uma tolerância pré-especificada por uma função no RKHS (Reproducing Kernel Hilbert Space) associado aXRdk(x,x)X×XC(X)X||||fC(X)fϵk? Você pode se perguntar o que é um RKHS e o que tudo isso tem a ver com a regressão de processo gaussiana. Um RKHS é o fechamento do espaço vetorial formado por todas as combinações lineares finitas possíveis de todas as funções possíveis onde . Isso está estritamente relacionado à regressão do processo gaussiano, porque, dado um processo gaussiano anterior no espaço , depois o (fechamento do) O espaço de todos os meios posteriores possíveis que podem ser gerados pela regressão de processo gaussiana é exatamente o RKHS. De fato, todos os meios posteriores possíveis têm a formaK(X)fy(x)=k(x,y)yXGP(0,k(x,x))C(X)

f(x)=i=1ncik(x,xi)

isto é, são combinações lineares finitas de funções . Assim, estamos efetivamente perguntando se, dado um processo gaussiano anterior em , para qualquer função lá é sempre uma função no espaço (fechamento do) de todas as funções que podem ser geradas pelo GPR, o mais próximo possível de .fxi(x)=k(x,xi)GP(0,k(x,x))C(X)fC(X)ff

A resposta, para alguns kernels específicos (incluindo o kernel clássico exponencial quadrado, mas não incluindo o kernel polinomial), é sim . Pode-se provar que, para esses núcleos, é denso em , ou seja, para qualquer e para qualquer tolerância , existe um em tal que . Observe as suposições: é compacto, é contínuo e é um núcleo contínuo com a chamada propriedade de aproximação universal. Veja aquiK(X)C(X)fC(X)ϵfK(X)||ff||<ϵXfk para uma prova completa em um contexto mais geral (portanto complicado).

Este resultado é muito menos poderoso do que parece à primeira vista. Mesmo se estiver no espaço (fechamento do) dos meios posteriores que podem ser gerados pelo GPR, não provamos que seja a média posterior específica retornada pelo GPR, para um conjunto de treinamento grande o suficiente, onde é claro que o conjunto de treinamento consiste em observações barulhentas de nos pontos . Nem sequer provamos que a média posterior retornada pelo GPR converge de maneira alguma para ! Esta é realmente a segunda interpretação sugerida por @Dougal. A resposta a esta pergunta depende da resposta à primeira: se não houver nenhuma funçãoffx1,,xnnfno RKHS, que é uma "boa aproximação" de , é claro que não podemos esperar que a média posterior retornada pelo GPR converja para ele. No entanto, é uma pergunta diferente. Se você também gostaria de ter uma resposta para essa pergunta, faça uma nova pergunta.f

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.