Como funciona a interpolação de Kriging?

Estou trabalhando em um problema no qual preciso usar o Kriging para prever o valor de algumas variáveis com base em algumas variáveis circundantes. Eu quero implementar seu código sozinho. Então, eu examinei muitos documentos para entender como isso funciona, mas fiquei muito confuso. Geralmente, entendo que é uma média ponderada, mas não consegui entender completamente o processo de calcular o peso e prever o valor de uma variável.

Alguém por favor pode me explicar em termos simples os aspectos matemáticos desses métodos de interpolação e como funciona?

spatial interpolation kriging

— Dania
fonte

A implementação de código é uma ótima ferramenta de aprendizado, mas não pode ser recomendada para trabalhar com problemas reais. No momento em que o código for escrito, depurado e testado, você descobrirá que é necessário uma ordem de magnitude maior para fornecer ferramentas suplementares para análise de dados exploratórios espaciais, variografia, validação cruzada do variograma, pesquisa de vizinhança e pós- processamento dos resultados krigados. Um compromisso razoável e eficaz seria começar com o código ativo , como GSLib ou GeoRGLM , e modificá-lo.

— whuber

Muito obrigado, é uma ótima idéia, mas também quero entender o aspecto matemático do Kriging. Você tem um recurso que o explique claramente em termos simples? Obrigado.

— Dania

Essa resposta consiste em uma seção introdutória que escrevi recentemente para um artigo que descreve uma extensão espaço-temporal (modesta) de "Universal Kriging" (Reino Unido), que por si só é uma modesta generalização de "Kriging comum". Possui três subseções: Teoria fornece um modelo estatístico e suposições; A estimativa revisa brevemente a estimativa do parâmetro dos mínimos quadrados; e Predição mostra como o kriging se encaixa na estrutura GLS (Generalized Least Squares). Fiz um esforço para adotar a notação familiar aos estatísticos, especialmente os visitantes deste site, e para usar conceitos bem explicados aqui.

Para resumir, kriging é a Melhor Previsão Linear Imparcial (BLUP) de um campo aleatório. O que isso significa é que o valor previsto em qualquer local não amostrado é obtido como uma combinação linear dos valores e covariáveis observados nos locais amostrados. O valor (desconhecido, aleatório) lá tem uma correlação assumida com os valores da amostra (e os valores da amostra são correlacionados entre si). Essas informações de correlação são prontamente traduzidas na variação da previsão. Escolhe-se coeficientes na combinação linear (os "pesos de krigagem") que tornam essa variação o menor possível, sujeita a uma condição de viés zero na previsão. Os detalhes a seguir.

Teoria

O Reino Unido compreende dois procedimentos - um de estimativa e outro de previsão - realizados no contexto de um modelo GLS para uma área de estudo. Os supõe modelo GLS que a amostra de dados são o resultado de desvios aleatórios em torno de uma tendência e que esses desvios estão correlacionados. Uma tendência é entendida no sentido geral de um valor que pode ser determinado por uma combinação linear de coeficientes desconhecidos (parâmetros) $z_i,\ (i = 1, 2, ..., n)$ $p$ . (Ao longo deste post, o primo denota a transposição da matriz e todos os vetores são considerados vetores de coluna.) $\beta=(\beta_1,\beta_2,\ldots,\beta_p)^\prime$ $^\prime$

Em qualquer local dentro de uma área de estudo, está disponível uma tupla de atributos numéricos denominados "variáveis independentes" ou "covariáveis". (Normalmente é um “termo constante”, e podem ser coordenadas espaciais, e os adicionais $\mathbf y = (y_1, y_2, \ldots, y_p)^\prime$ $y_1 = 1$ $y_2$ $y_3$ $y_i$ pode representar informações espaciais, bem como outras informações auxiliares disponíveis em todos os locais da área de estudo, como porosidade de um aqüífero ou distância de um poço de bombeamento.) Em cada local de dados , além de suas covariáveis , a observação associada é considerada uma realização de uma variável aleatória . Por outro lado, o $i$ $y_i = (y_{i1}, y_{i2}, \ldots, y_{ip})^\prime$ $z_i$ $Z_i$ $y_i$ são pensados como valores determinados ou caracterizando os pontos ou pequenas regiões representadas pelas observações (os dados “suportam”). O não são considerados como sendo as realizações de variáveis aleatórias e são obrigados a estar relacionado com as propriedades de qualquer um dos . $y_i$ $Z_i$

A combinação linear expressa o valor esperado de em termos dos parâmetros de , o qual é a valor da tendência no local . O processo de estimativa utiliza os dados para encontrar valores que representam os parâmetros desconhecidos

E [Z_{i}] = {y^{'}}_{i} β = y_{i 1} β_{1} + y_{i 2} β_{2} + \dots + y_{i p} β_{p}

${\bf{E}}\left[ {Z_i } \right] = {\bf{y'}}_i {\bf{\beta }} = y_{i1} \beta _1 + y_{i2} \beta _2 + \cdots + y_{ip} \beta _p$

Z_{i}

$Z_i$

β

$\beta$

i

$i$

{\hat{β}}_{i}

$\hat\beta_i$

β_{i}

$\beta_i$ , enquanto o processo de previsão usa os dados nos locais

para calcular um valor em um local não amostrado, que é aqui indexado como

. Os alvos de estimação são fixas ( ou seja, os parâmetros, não aleatórios), enquanto que o alvo de predição é aleatória, porque o valor de

inclui uma flutuação aleatória em torno da sua tendência

. Normalmente, são feitas previsões para vários locais usando os mesmos dados, variando o local

i = 1, 2, \dots, n

$i = 1, 2, \ldots, n$

i = 0

$i = 0$

z_{0}

$z_0$

y_{0}^{'} β

$y_0^\prime\beta$

0

$0$ . Por exemplo, geralmente são feitas previsões para mapear uma superfície ao longo de uma grade regular de pontos adequados para o contorno.

Estimativa

$Z_i$ $Z_i$ $Z_j$ $c_{ij}$

\hat{β} = H z, H = {({Y^{'} C}^{- 1} Y)}^{- 1} {Y^{'} C}^{- 1}

$\hat\beta=\bf{Hz},\ {\bf{H}} = \left( {{\bf{Y'C}}^{{\bf{ - 1}}} {\bf{Y}}} \right)^{{\bf{ - 1}}} {\bf{Y'C}}^{{\bf{ - 1}}}$

z = (z_{1}, z_{2}, \dots, z_{n})

${\bf {z}} = (z_1, z_2, \ldots, z_n)$

n

$n$

Y = (y_{i j})

${\bf Y} = (y_{ij})$

n

$n$

p

$p$

y_{i}^{'}, 1 \leq i \leq n

$y_i^\prime, 1 \le i \le n$

C = (c_{i j})

$\mathbf C = (c_{ij})$

n

$n$

n

$n$

p

$p$

n

$n$

H

$\mathbf H$

z

$\mathbf z$

\hat{β}

$\hat \beta$

\hat{β}

$\hat\beta$

C = (c_{i j})

$\mathbf C = (c_{ij})$

Predição

$z_0$

{\hat{z}}_{0} = λ_{1} z_{1} + λ_{2} z_{2} + \dots + λ_{n} z_{n} = λ^{'} z .

$\hat z_0 = \lambda _1 z_1 + \lambda _2 z_2 + \cdots + \lambda _n z_n = {\bf{\lambda 'z}}.$

λ_{i}

$\lambda_i$

z_{0}

$z_0$

z_{0}

$z_0$

Z_{i}

$Z_i$

Z_{0}

$Z_0$

0 = E [{\hat{Z}}_{0} - Z_{0}] = E [λ^{'} Z - Z_{0}] .

$0 = {\bf{E}}\left[ {\hat Z_0 - Z_0 } \right] = {\bf{E}}\left[ {{\bf{\lambda 'Z}} - Z_0 } \right].$

n + 1

$n+1$

Z_{0}

$Z_0$

Z = (Z_{1}, Z_{2}, \dots, Z_{n})

$\mathbf Z = (Z_1, Z_2, \ldots, Z_n)$

\begin{aligned} 0 & = E [λ^{'} Z - Z_{0}] = λ^{'} E [Z] - E [Z_{0}] = λ^{'} (Y β) - {y^{'}}_{0} β = (λ^{'} Y - {y^{'}}_{0}) β \\ = β^{'} (Y^{'} λ - y_{0}) \end{aligned}

$\eqalign{ 0 &= {\bf{E}}\left[ {{\bf{\lambda 'Z}} - Z_0 } \right] = {\bf{\lambda 'E}}\left[ {\bf{Z}} \right] - {\bf{E}}\left[ {Z_0 } \right] = {\bf{\lambda '}}\left( {{\bf{Y\beta }}} \right) - {\bf{y'}}_0 {\bf{\beta }} = \left( {{\bf{\lambda 'Y}} - {\bf{y'}}_0 } \right){\bf{\beta }}\\ &= {\bf{\beta '}}\left( {{\bf{Y'\lambda }} - {\bf{y}}_0 } \right) }$

$\beta$

{\hat{Y}}^{'} λ = y_{0} .

$\hat{\mathbf Y}^\prime \lambda = \mathbf{y}_0.$

$\lambda$ $\hat Z_0 - Z_0$

V a r ({\hat{Z}}_{0} - Z_{0}) = E [{({\hat{Z}}_{0} - Z_{0})}^{2}] = E [{(λ^{'} Z - Z_{0})}^{2}] = c_{00} - 2 {λ^{'} c}_{0} + λ^{'} C λ

${\rm{Var}}\left( {\hat Z_0 - Z_0 } \right) = {\bf{E}}\left[ {\left( {\hat Z_0 - Z_0 } \right)^2 } \right] = {\bf{E}}\left[ {\left( {{\bf{\lambda 'Z}} - Z_0 } \right)^2 } \right] = c_{00} - 2{\bf{\lambda 'c}}_0 + {\bf{\lambda 'C\lambda }}$

c_{0} = (c_{01}, c_{02}, \dots, c_{0 n})^{'}

$\mathbf c_0 = (c_{01}, c_{02}, \ldots, c_{0n})^\prime$

Z_{0}

$Z_0$

Z_{i}, i \geq 1

$Z_i,\ i \ge 1$

c_{00}

$c_{00}$

Z_{0}

$Z_0$

$\lambda$ $p$ $\mu$ $\hat{\mathbf Y}^\prime \lambda = \mathbf{y}_0$ $n+p$

(\begin{matrix} C & Y \\ Y^{'} & 0 \end{matrix}) (\begin{matrix} λ \\ μ \end{matrix}) = (\begin{matrix} c_{0} \\ y_{0} \end{matrix})

$\left( {\begin{array}{*{20}c} {\bf{C}} & {\bf{Y}} \\ {{\bf{Y'}}} & {\bf{0}} \\ \end{array}} \right)\left( {\begin{array}{*{20}c} {\bf{\lambda }} \\ {\bf{\mu }} \\ \end{array}} \right) = \left( {\begin{array}{*{20}c} {{\bf{c}}_{\bf{0}} } \\ {{\bf{y}}_{\bf{0}} } \\ \end{array}} \right)$

0

$\mathbf 0$

p

$p$

p

$p$

1

$\mathbf 1$

n

$n$

n

$n$

λ

$\lambda$

λ = {H^{'} y}_{0} + C^{- 1} (1 - Y H) c_{0} .

${\bf{\lambda }} = {\bf{H'y}}_0 + {\bf{C}}^{ - 1} \left( {{\bf{1}} - {\bf{YH}}} \right){\bf{c}}_0.$

(Os leitores familiarizados com a regressão múltipla podem achar instrutivo comparar essa solução com a solução baseada em covariância dos equações normais dos mínimos quadrados ordinários , que parece quase exatamente a mesma, mas sem termos multiplicadores de Lagrange.)

$\lambda$ $[\mathbf H^\prime\, \mathbf y_0]$ $Z_0$ $\hat z_0$

— whuber
fonte

Muito obrigado whuber, é exatamente isso que estou procurando. Você resolveu esse problema para mim, agora eu entendo Kriging. Eu realmente aprecio sua ajuda, muito obrigado.

— Dania

{\hat{Y}}^{'}

$\hat{\mathbf Y}^\prime$

Y^{'} = (y_{j i})

${\bf Y}^\prime = (y_{ji})$

p

$p$

n

$n$

y_{i}, 1 \leq i \leq n

$y_i, 1 \le i \le n$