Qual é a lógica da função de covariância de Matérn?


19

A função de covariância de Matérn é comumente usada como função de kernel no Processo Gaussiano. É definido assim

Cν(d)=σ221νΓ(ν)(2νdρ)νKν(2νdρ)

onde é uma função de distância (como a distância euclidiana), é a função gama, é a função de Bessel modificada do segundo tipo, ρ e ν são parâmetros positivos. muito tempo para ser ou na prática.Γ K νdΓKνρν3ν 53252

Muito tempo, esse kernel funciona melhor que o kernel gaussiano padrão, pois é 'menos suave', mas, exceto isso, existe alguma outra razão pela qual alguém prefere esse kernel? Alguma intuição geométrica sobre como ela se comporta ou alguma explicação da fórmula aparentemente enigmática seria muito apreciada.

Respostas:


18

Além da resposta agradável da @DahnJahn, pensei em tentar falar um pouco mais sobre a origem das funções Bessel e gama. Um ponto de partida para chegar à função de covariância é o teorema de Bochner.

Teorema (Bochner) Um contínuo estacionário função é definida positiva, se e somente se ~ k é a transformada de Fourier de uma medida positiva finito: k(x,y)=k~(|xy|)k~

k~(t)=Reiωtdµ(ω)

A partir disso, você pode deduzir que a matriz de covariância de Matérn é derivada como transformada de Fourier de (Origem) . Tudo bem, mas não nos diz realmente como você chega a essa medida positiva finita dada por . Bem, é a densidade espectral (de potência) de um processo estocástico . 11(1+ω2)p f(x)1(1+ω2)pf(x)

Qual processo estocástico? Sabe-se que um processo aleatório em com uma função de covariância de Matérn é uma solução para a equação diferencial parcial estocástica (SPDE) onde é ruído branco gaussiano com variação unitária, é o operador Laplace, e (acho que isso está em Cressie e Wikle ).RdW ( s ) Δ = d i = 1 2

(κ2)α/2X(s)=φW(s),
W(s) α=ν+d/2
Δ=i=1d2xi2
α=ν+d/2

Por que escolher esse processo SPDE / estocástico específico? A origem está nas estatísticas espaciais, onde se argumenta que é a covariância mais simples e natural que funciona bem em :R2

A função de correlação exponencial é uma correlação natural em uma dimensão, pois corresponde a um processo de Markov. Em duas dimensões, isso não é mais verdade, embora o exponencial seja uma função de correlação comum no trabalho geoestatístico. Whittle (1954) determinou a correlação correspondente a uma equação diferencial estocástica do tipo Laplace:

ϵ

[(t1)2+(t2)2κ2]X(t1,t2)=ϵ(t1,t2)
que é ruído branco. O processo de rede discreta correspondente é uma regressão automática de segunda ordem. (Fonte)ϵ

A família de processos incluídos na SDE associada à equação de Matern inclui o modelo Ornstein-Uhlenbeck da velocidade de uma partícula em movimento browniano. De maneira mais geral, é possível definir um espectro de potência para uma família de processos para cada número inteiro que também tenha uma covariância da família Matérn. Isso está no apêndice de Rasmussen e Williams.A R ( p ) pAR(1)AR(p)p

Essa função de covariância não está relacionada ao processo de cluster Matérn.

Referências

Cressie, Noel e Christopher K. Wikle. Estatísticas para dados espaço-temporais. John Wiley & Sons, 2015.

Guttorp, Peter e Tilmann Gneiting. "Estudos na história da probabilidade e estatística XLIX Na família de correlação materna." Biometrika 93.4 (2006): 989-995.

Rasmussen, CE e Williams, CKI Gaussian Processes for Machine Learning. a MIT Press, 2006.


2
No caso unidimensional, a covariância materna com a forma com um número inteiro positivo é a de um processo de AutoRegressão em tempo contínuo da ordem . No entanto, nem todos os modelos têm uma covariância materna. p CARRO ( p ) p CARRO ( p )ν=p1/2pCAR(p)pCAR(p)
Yves

Isso é um mal-entendido óbvio da minha parte, vou atualizar a resposta. Obrigado!
MachineEpsilon

16

Eu não sei, mas achei essa pergunta muito interessante e aqui está o que consegui depois de ler um pouco.

Para certos valores de , a função de covariância de Matérn pode ser expressa como um produto de um exponencial e de um polinômio. Por exemplo, para : Não é de surpreender que, como , realmente converja para o RBF gaussiano : Para , a função de covariância de Matérn fornece o kernel exponencial absoluto vmax = 5 / 2 C 5 / 2 ( d ) = σ 2 ( 1 + νν=5/2νCνlimνCν(d)=σ2exp(-d2

C5/2(d)=σ2(1+5dρ+5d23ρ2)exp(5dρ)
νCνν=1/2
limνCν(d)=σ2exp(d22ρ2)
ν=1/2
C1/2(d)=σ2exp(dρ)

Além disso, um processo gaussiano com a função de covariância de Matérn com o parâmetro é tempo diferenciável .ν - 1νν1

Isso é bem demonstrado em uma foto tirada de Rasmussen & Williams (2006) CE Rasmussen & CKI Williams, Gaussian Processes for Machine Learning, MIT Press, 2006, ISBN 026218253X.  c 2006 Instituto de Tecnologia de Massachusetts.  www.GaussianProcess.org/gpml

Em Interpolação de dados espaciais , Stein (que realmente propôs o nome da função de covariância de Matérn) argumenta (pág. 30) que a diferenciabilidade infinita da função de covariância gaussiana produz resultados irreais para processos físicos, uma vez que observar apenas uma pequena fração contínua de o espaço / tempo deve, em teoria, produzir toda a função. Assim, ele propôs a versão de Matérn como uma generalização capaz de combinar processos físicos de maneira mais realista.

Sumário

A função de covariância de Matérn pode ser vista como uma generalização da função de base radial gaussiana . Ele contém até o kernel exponencial absoluto, que fornece resultados radicalmente diferentes, e é mais capaz de capturar processos físicos devido à sua diferenciabilidade finita (por finito ).ν

Quanto ao mistério da aparência da função de Bessel, eu adoraria ver mais intuição por trás disso, mas acho que é precisamente seu comportamento (assintótico) in que a tornou útil nesse contexto e levou Stein a defina a função de covariância de Matérn. É claro que isso não descarta a possibilidade de haver um belo argumento sobre por que tudo isso é verdade.ν


1
(+1) Fiquei curioso para saber se havia uma explicação ou derivação dessa função de covariância no livro de Matérn, pub.epsilon.slu.se/10033/1/… ? Não consegui localizá-lo até o momento. Essa função de covariância parece ter um lugar de destaque no livro de Stein, por isso estou ansioso para saber mais.
usar o seguinte comando

@Machineepsilon Matérn realmente menciona / define a função? No livro de Stein, tive a sensação de que ele foi quem inventou o nome e o nomeou apenas de Matérn.
Dahn 26/01

Não tenho certeza, é isso que eu queria descobrir! Vou tentar dar uma olhada, porque Rasmussen também faz referência ao livro.
usar o seguinte comando
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.