Por que você precisa fornecer um modelo de variograma quando está krigando?

Sou muito novo em estatísticas espaciais e assisto a muitos tutoriais,

Mas eu realmente não entendo por que você precisa fornecer um modelo de variograma quando krige.

Estou usando o pacote gstat no R, e este é o exemplo que eles fornecem:

library(sp)
data(meuse)
coordinates(meuse) = ~x+y
data(meuse.grid)
str(meuse.grid)
gridded(meuse.grid) = ~x+y
m <- vgm(.59, "Sph", 874, .04)
print(m)
# ordinary kriging:
x <- krige(log(zinc)~1, meuse, meuse.grid, model = m)

Alguém é capaz de explicar em algumas linhas por que você primeiro fornece o vgm? E como você define os parâmetros?

Agradeço antecipadamente! Kasper

spatial

— Kasper
fonte

Para krigagem simples, o estimador é AZUL somente se a covariância média e espacial forem conhecidas antecipadamente. No kriging comum, estima-se o variograma a partir dos dados e, em seguida, a interpolação. Veja a vinheta do gstatpacote R dos mesmos dados de uso.

— 187 Andy W

Hey Andy, obrigado pelo seu comentário. Eu descobri na vinheta que você também pode krige sem um modelo de variograma. Eu fiz o seguinte: krige (resíduos ~ 1, temp_plot_spatial, y, nmin = 5, nmax = 10), então krige apenas olhando para no mínimo 5 vizinhos e no máximo 10. Isso faz algum sentido? O resultado foi bem legal: dropbox.com/s/7lxvfiyfl7ekhb4/…

— Kasper

Acho que tenho um problema em modelar o variograma: e se você assumir que a correlação não tem nada a ver com a distância, mas com os vizinhos mais próximos?

— Kasper

"e se você assumir que a correlação não tem nada a ver com a distância, mas com os vizinhos mais próximos?" - isso não é kriging então, é mais alinhado com a classificação knn. O código krige(residuals~1 ,temp_plot_spatial, y, nmin=5, nmax=10)estima variogramas locais. Por exemplo, você não possui um variograma em todo o espaço de estudo, mas calcule um novo modelo para cada local que você está tentando prever. O modelo local pega apenas os 10 valores mais próximos (já que você não especifica uma distância máxima, ele sempre deve pegar 10 valores, portanto, nmindeve ser supérfluo).

— 187 Andy W

Então, estimar variogramas locais é uma coisa lógica a se fazer. Se eles variam de acordo com certos recursos, incluindo outros preditores no modelo também é uma opção. O IDW pode ser considerado o tipo mais simples de modelo de krigagem - portanto, o IDW não deve ser melhor do que realmente estimar o variograma a partir dos dados.

— Andy W

Introdução e Resumo

A Lei de Tobler da Geografia afirma

Tudo está relacionado a tudo o mais, mas coisas próximas são mais relacionadas que coisas distantes.

Kriging adota um modelo daqueles relacionamentos em que

"Coisas" são valores numéricos em locais na superfície da Terra (ou no espaço), geralmente representados como um plano euclidiano.
Estes valores numéricos são assumidos como realizações de variáveis aleatórias.
"Relacionado" é expresso em termos das médias e covariâncias dessas variáveis aleatórias.

(Uma coleção de variáveis aleatórias associadas a pontos no espaço é chamada de "processo estocástico".) O variograma fornece as informações necessárias para calcular essas covariâncias.

O que é Kriging

Kriging especificamente é a previsão de coisas em lugares onde elas não foram observadas. Para tornar o processo de previsão matematicamente tratável, Kriging limita as possíveis fórmulas a serem funções lineares dos valores observados. Isso torna o problema finito para determinar quais devem ser os coeficientes. Isso pode ser encontrado exigindo que o procedimento de previsão tenha certas propriedades. Intuitivamente, uma propriedade excelente é que as diferenças entre o preditor e o valor verdadeiro (mas desconhecido) tendem a ser pequenas: ou seja, o preditor deve ser preciso . Outra propriedade altamente elogiada, mas mais questionável, é que, em média, o preditor deve ser igual ao valor real: deve ser preciso .

(A razão pela qual insistir na precisão perfeita é questionável - mas não necessariamente ruim - é que geralmente torna qualquer procedimento estatístico menos preciso: ou seja, mais variável. Ao atirar em um alvo, você prefere espalhar os acertos uniformemente ao redor do alvo. raro e raramente atingindo o centro ou você aceitaria resultados focados logo ao lado, mas não exatamente, do centro? O primeiro é preciso, mas impreciso, enquanto o segundo é impreciso, mas preciso.)

Essas suposições e critérios - que meios e covariâncias são maneiras apropriadas de quantificar a relação, que uma previsão linear funcionará e que o preditor deve ser o mais preciso possível, sujeito a ser perfeitamente preciso - levam a um sistema de equações que possui um solução única, desde que as covariâncias tenham sido especificadas de maneira consistente . O preditor resultante é, assim, chamado de "BLUP": o melhor preditor imparcial linear.

Onde o Variograma entra

Para encontrar essas equações, é necessário operacionalizar o programa descrito. Isso é feito anotando as covariâncias entre o preditor e as observações consideradas variáveis aleatórias. A álgebra de covariâncias faz com que as covariâncias entre os valores observados também entrem nas equações de Kriging.

Nesse ponto, chegamos a um beco sem saída, porque essas covariâncias são quase sempre desconhecidas. Afinal, na maioria das aplicações, observamos apenas uma realização de cada uma das variáveis aleatórias: nosso conjunto de dados, que constitui apenas um número em cada local distinto. Digite o variograma: essa função matemática nos diz qual deve ser a covariância entre dois valores. É restrito a garantir que essas covariâncias sejam "consistentes" (no sentido de que nunca fornecerá um conjunto de covariâncias matematicamente impossíveis: nem todas as coleções de medidas numéricas de "parentesco" formarão matrizes reais de covariância ). É por isso que um variograma é essencial para Kriging.

Referências

Como a pergunta imediata foi respondida, vou parar por aqui. Os leitores interessados podem aprender como os variogramas são estimados e interpretados consultando bons textos, como Geoestatística de Mineração de Journel & Huijbregts (1978) ou Geoestatística Aplicada de Isaaks & Srivastava (1989). (Note-se que o processo de estimação introduz dois objetos chamado "variogramas": um empírico variograma derivada de dados e um modelo de variograma que é colocado a ele Todas as referências a "variograma" nesta resposta são para o modelo A chamada para.. vgmNa questão retorna uma representação por computador de um variograma de modelo.) Para uma abordagem mais moderna na qual a estimativa de variograma e o Kriging são combinados adequadamente, consulte Diggle &Geoestatística baseada em modelo (2007) (que também é um manual estendido para os Rpacotes GeoRe GeoRglm).

Comentários

Aliás, esteja você usando o Kriging para previsão ou algum outro algoritmo, a caracterização quantitativa da relação fornecida pelo variograma é útil para avaliar qualquer procedimento de previsão. Observe que todos os métodos de interpolação espacial são preditores desse ponto de vista - e muitos deles são preditores lineares, como IDW (Distância Inversa Ponderada). O variograma pode ser usado para avaliar o valor médio e a dispersão (desvio padrão) de qualquer um dos métodos de interpolação. Assim, tem aplicabilidade muito além do seu uso no Kriging.

— whuber
fonte

Obrigado por esta resposta detalhada. Faço a mesma pergunta acima, e se eu não puder assumir que a correlação espacial é independente da localização? É correto que a modelagem do variograma não seja útil, pois eu precisaria fazer um modelo do variograma para todos os locais? É melhor usar o IDW?

— Kasper

Quando você não pode assumir a estacionariedade de segunda ordem do processo, várias opções incluem (1) coletar várias realizações do processo (quando isso varia com o tempo); (2) estimar variogramas sobre sub-regiões locais (quando houver muitos dados); e (3) assumindo um modelo paramétrico de como o variograma muda com a localização (como nos modelos GARCH para processos 1D). Meus últimos comentários abordam diretamente a impraticabilidade de recorrer a algo como o IDW: se você pode ou não estimar o variograma, em princípio ele existe e, portanto, o IDW geralmente é subótimo.

— whuber