Processo Gaussiano e Correlação

Fiquei me perguntando por que as pessoas usam processos gaussianos (GP) para modelar uma função desconhecida (às vezes determinística). Por exemplo, considere uma função desconhecida . Temos três observações independentes dessa função: $y=f(x)$

(x_{1}, y_{1}); (x_{2}, y_{2}); (x_{3}, y_{3})

$\big(x_1,y_1); \big(x_2,y_2); \big(x_3,y_3)$

Para aprender a função subjacente, o GP é uma técnica não paramétrica comum que trata todas as saídas como uma distribuição normal multivariada comum. Assuma uma função de covariância específica e assuma: O GP assume o seguinte formato $K(x_i,y_i)$

y = (y_{1}, y_{2}, y_{3}); X = (x_{1}, x_{2}, x_{3})

$\mathbf{y}=(y_1,y_2,y_3);\mathbf{X}=(x_1,x_2,x_3)$

y | X \sim N (0, [\begin{matrix} K (x_{1}, x_{1}) & K (x_{1}, x_{2}) & K (x_{1}, x_{3}) \\ K (x_{1}, x_{2}) & K (x_{2}, x_{2}) & K (x_{2}, x_{3}) \\ K (x_{1}, x_{3}) & K (x_{2}, x_{3}) & K (x_{3}, x_{3}) \end{matrix}])

$\\ \bf{y}|X \sim N\Bigg(\mathbf{0},\begin{bmatrix} K(x_1,x_1) & K(x_1,x_2) & K(x_1,x_3) \\ K(x_1,x_2) & K(x_2,x_2) & K(x_2,x_3) \\ K(x_1,x_3) & K(x_2,x_3) & K(x_3,x_3) \ \end{bmatrix}\Bigg)\\$

As observações são independentes. O único ponto em comum é que eles vêm da mesma função subjacente. $\big(x_i,y_i)$

Minha principal pergunta é: Por que estamos forçando e a serem correlacionados? Esse não é o modelo errado? Por que podemos assumir que podemos obter bons resultados de previsão para qualquer . $\big(x_i,y_j)$ $\big(x_{l},y_{m})$ $y|x$

Não sei ao certo qual aspecto está faltando neste problema e por que está forçando a correlação.

— Wis
fonte

Escolher um kernel é equivalente a escolher uma classe de funções a partir da qual você escolherá seu modelo. Se escolher um kernel é algo que codifica muitas suposições, é porque é! As pessoas novas no campo geralmente não pensam muito na escolha do kernel e apenas seguem o kernel gaussiano, mesmo que não seja apropriado.

Como decidimos se um kernel parece ou não apropriado? Precisamos pensar em como são as funções no espaço de função correspondente. O kernel gaussiano corresponde a funções muito suaves, e quando esse kernel é escolhido, assume-se que as funções suaves fornecerão um modelo decente. Nem sempre é esse o caso, e existem muitos outros kernels que codificam diferentes suposições sobre como você deseja que sua classe de função seja. Existem kernels para modelar funções periódicas, kernels não estacionários e várias outras coisas. Por exemplo, a suposição de suavidade codificada pelo kernel gaussiano não é apropriada para a classificação de texto, como mostrado por Charles Martin em seu blog aqui .

Vejamos exemplos de funções de espaços correspondentes a dois kernels diferentes. O primeiro será o kernel gaussiano e o outro será o kernel browniano de movimento . Um único sorteio aleatório de cada espaço se parece com o seguinte: $k_1(x, x') = \exp(-\gamma |x - x'|^2)$ $k_2(x, x') = \min \{x, x'\}$

Claramente, eles representam suposições muito diferentes sobre o que é um bom modelo.

Além disso, observe que não estamos necessariamente forçando a correlação. Considere sua função média como e sua função de covariância como . Agora nosso modelo é ou seja, acabamos de recuperar a regressão linear. $\mu(x) = x^T \beta$ $k(x_i, x_j) = \sigma^2 \mathbf 1(i = j)$

Y | X \sim N (X β, σ^{2} I)

$Y | X \sim \mathcal N(X\beta, \sigma^2 I)$

Mas, em geral, essa correlação entre pontos próximos é um modelo extremamente útil e poderoso. Imagine que você possui uma empresa de perfuração de petróleo e deseja encontrar novas reservas de petróleo. É extremamente caro perfurar, então você deseja perfurar o menor número de vezes possível. Digamos que tenhamos perfurado $n=5$ buracos e queremos saber onde nosso próximo buraco deve estar. Podemos imaginar que a quantidade de óleo na crosta terrestre varia suavemente, portanto modelaremos a quantidade de óleo em toda a área que estamos considerando perfurar com um processo gaussiano usando o núcleo gaussiano, e é assim que estamos dizendo que lugares muito próximos terão quantidades muito semelhantes de petróleo e lugares muito distantes são efetivamente independentes. O núcleo gaussiano também é estacionário, o que é razoável neste caso: a estacionariedade diz que a correlação entre dois pontos depende apenas da distância entre eles. Em seguida, podemos usar nosso modelo para prever onde devemos perfurar em seguida. Acabamos de dar um único passo na otimização bayesiana, e acho que é uma maneira muito boa de apreciar intuitivamente por que gostamos do aspecto de correlação dos GPs.

Outro bom recurso é Jones et al. (1998) . Eles não chamam seu modelo de processo gaussiano, mas é. Este artigo mostra muito bem por que queremos usar a correlação entre pontos próximos, mesmo em um cenário determinístico.

Um ponto final: acho que ninguém jamais assume que podemos obter bons resultados de previsão. Isso é algo que gostaríamos de verificar, como por validação cruzada.

Atualizar

Quero esclarecer a natureza da correlação que estamos modelando. Primeiro, vamos considerar a regressão linear para que . Sob esse modelo, temos para . Mas também sabemos que se então $Y | X \sim \mathcal N(X\beta, \sigma^2 I)$ $Y_i \perp Y_j | X$ $i \neq j$ $||x_1 - x_2||^2 < \varepsilon$

(E (Y_{1} | X) - E (Y_{2} | X))^{2} = (x_{1}^{T} β - x_{2}^{T} β)^{2} = ⟨ x_{1} - x_{2}, β ⟩^{2} \leq | | x_{1} - x_{2} | |^{2} | | β | |^{2} < ε | | β | |^{2} .

$(E(Y_1 | X) - E(Y_2 | X))^2 = (x_1^T \beta - x_2^T \beta)^2 = \langle x_1 - x_2, \beta \rangle^2 \leq || x_1 - x_2||^2 ||\beta ||^2 < \varepsilon ||\beta ||^2.$

Portanto, isso nos diz que se as entradas e estão muito próximas, as médias de e estão muito próximas. Isso é diferente de estar correlacionado porque eles ainda são independentes, como evidenciado por como $x_1$ $x_2$ $Y_1$ $Y_2$

P (Y_{1} > E (Y_{1} | X) | Y_{2} > E (Y_{2} | X)) = P (Y_{1} > E (Y_{1} | X)) .

$P(Y_1 > E(Y_1 | X) \ \vert \ Y_2 > E(Y_2 | X)) = P(Y_1 > E(Y_1 | X)).$

Se eles estivessem correlacionados, saber que está acima de sua média nos diria algo sobre . $Y_2$ $Y_1$

Então agora vamos manter mas adicionaremos correlação por . Ainda temos o mesmo resultado que é pequeno, mas agora ganhamos o fato de que se for maior que sua média, digamos, provavelmente também será. Essa é a correlação que adicionamos. $\mu(x) = x^T \beta$ $Cov(Y_i, Y_j) = k(x_i, x_j)$ $||x_1 - x_2||^2 < \varepsilon \implies (E(Y_1 | X) - E(Y_2 | X))^2$ $Y_1$ $Y_2$

— jld
fonte

Obrigado pelo seu comentário. Sua explicação é muito útil. No entanto, minha pergunta é focada principalmente na idéia de que a correlação entre as tuplas e não existe na realidade. Então o GP força uma correlação na distribuição normal multivariada (além do caso ). Essa correlação é a mesma que a das variáveis aleatórias? ou é definido de maneira diferente, pois estamos modelando relacionamentos funcionais? Essa correlação é interpretável? e como isso ajuda?

(x_{i}, x_{j})

$(x_i,x_j)$

(x_{l}, x_{m})

$(x_l,x_m)$

K = 1 (i = j)

$K=1(i=j)$

— Wis

Também podemos dizer que não é independente de porque eles vêm da mesma função subjacente e ambos dependem de ? é por isso que o deve ter correlação. Eu realmente aprecio você ajuda sobre estas questões

y_{i}

$y_i$

y_{j}

$y_j$

x

$x$

— Wis

@ kon7 Adicionei uma atualização sobre a correlação que, espero, ajude.

— JLD

Muito obrigado, sua resposta é incrível. Eu aceitei a resposta. Eu ainda tenho uma pequena pergunta. O tipo de informação que adicionamos, podemos chamá-la de correlação, no significado estatístico típico de correlação? Será que ela tem um significado no sentido de correlação funcional porque aqui nós estamos olhando para as tuplas , em vez das variáveis aleatórias

(x_{i}, y_{i})

$\big(x_i,y_i)$

y^{'} s

$y's$

— Wis

@ kon7 Isto é completamente o sentido padrão de correlação porque estamos trabalhando com uma matriz de covariância . é como calculamos isso, mas o é determinístico na formulação padrão e a única covariância é entre o .

K

$K$

X

$X$

x_{i}

$x_i$

Y_{i}

$Y_i$

— JLD

Se e são semelhantes entre si, ou seja, é grande, então e provavelmente também devem ser semelhantes um ao outro. Portanto, a proximidade no espaço de entrada (da função a ser aproximada) resulta na proximidade no espaço de saída. Isso é suposições razoáveis para muitos aplicativos. Por exemplo, se dois alunos têm um GPA do ensino médio semelhante, espera-se que eles também tenham um desempenho semelhante no exame SAT. $x_i$ $x_l$ $k(x_i, x_l)$ $y_i$ $y_l$

— Seeda
fonte