"Autocorrelação espacial" significa várias coisas para várias pessoas. Um conceito abrangente, no entanto, é que um fenômeno observado em locais pode depender de alguma maneira definida de (a) covariáveis, (b) local e (c) seus valores em locais próximos . (Onde as definições técnicas variam, estão no tipo de dados que estão sendo considerados, qual "caminho definitivo" é postulado e o que significa "próximo": tudo isso precisa ser quantitativo para prosseguir.)z
Para ver o que pode estar acontecendo, vamos considerar um exemplo simples de um modelo espacial para descrever a topografia de uma região. Deixe a elevação medida em um ponto ser . Um modelo possível é que depende de alguma maneira matemática definida das coordenadas de , que irei escrever nessa situação bidimensional. Deixando representar (hipoteticamente independentes) entre as observações e o modelo (que, como de costume, é assumido como tendo expectativa zero), podemos escreverzy(z)yz(z1,z2)ε
y(z)=β0+β1z1+β2z2+ε(z)
para um modelo de tendência linear . A tendência linear (representada pelos e ) é uma maneira de capturar a ideia de que os valores próximos e , para fechem para , tendem a estar próximos um do outro. Podemos até calcular isso considerando o valor esperado do tamanho da diferença entre e , . Acontece que a matemática é muitoβ1β2y(z)y(z′)zz′y(z)y(z′)E[|y(z)−y(z′)|]mais simples se usarmos uma medida ligeiramente diferente da diferença: em vez disso, calculamos a diferença quadrada esperada :
E[(y(z)−y(z′))2]=E[(β0+β1z1+β2z2+ε(z)−(β0+β1z′1+β2z′2+ε(z′)))2]=E[(β1(z1−z′1)+β2(z2−z2)′+ε(z)−ε(z′))2]=E[(β1(z1−z′1)+β2(z2−z2)′)2+2(β1(z1−z′1)+β2(z2−z2)′)(ε(z)−ε(z′))+(ε(z)−ε(z′))2]=(β1(z1−z′1)+β2(z2−z2)′)2+E[(ε(z)−ε(z′))2]
Este modelo está livre de qualquer autocorrelação espacial explícita, porque não existe um termo que relacione diretamente a valores próximos .y(z)y(z′)
Um modelo alternativo, diferente, ignora a tendência linear e supõe apenas que haja autocorrelação. Uma maneira de fazer isso é através da estrutura dos desvios . Podemos afirmar queε(z)
y(z)=β0+ε(z)
e, para explicar nossa antecipação da correlação, assumiremos algum tipo de "estrutura de covariância" para o . Para que isso seja espacialmente significativo, assumiremos a covariância entre e , igual a porque o tem zero médias, tende a diminuir à medida que e se tornam cada vez mais distantes. Como os detalhes não importam, vamos chamar essa covariância de . Isso é autocorrelação espacial.εε(z)ε(z′)E[ε(z)ε(z′)]εzz′C(z,z′) De fato, a correlação (usual de Pearson) entre e éy(z)y(z′)
ρ(y(z),y(z′))=C(z,z′)C(z,z)C(z′,z′)−−−−−−−−−−−−√.
Nesta notação, a diferença quadrada esperada anterior de para o primeiro modelo éy
E[(y(z)−y(z′))2]=(β1(z1−z′1)+β2(z2−z2)′)2+E[(ε(z)−ε(z′))2]=(β1(z1−z′1)+β2(z2−z2)′)2+C1(z,z)+C1(z′,z′)
(assumindo ) porque o em locais diferentes foi considerado independente. Escrevi vez de para indicar que esta é a função de covariância do primeiro modelo.z≠z′εC1C
Quando as covariâncias do não variam drasticamente de um local para outro (na verdade, geralmente são consideradas constantes), essa equação mostra que a diferença quadrática esperada em aumenta quadraticamente com a separação entre e . A quantidade real de aumento é determinada pelos coeficientes de tendência e .εyzz′β0β1
Vamos ver quais são as diferenças quadráticas esperadas nos 's para o novo modelo, modelo 2:y
E[(y(z)−y(z′))2]=E[(β0+ε(z)−(β0+ε(z′)))2]=E[(ε(z)−ε(z′))2]=E[ε(z)2−2ε(z)ε(z′)+ε(z′)2]=C2(z,z)−2C2(z,z′)+C2(z′,z′).
Novamente, isso se comporta da maneira correta: como pensamos que deve diminuir à medida que e se tornam mais separados, a diferença quadrada esperada em 's na verdade vai -se com o aumento da separação dos locais.C2(z,z′)zz′y
Comparando as duas expressões para nos dois modelos nos mostra que no primeiro modelo está desempenhando um papel matematicamente idêntico a no segundo modelo. (Há uma constante aditiva à espreita lá, enterrada nos diferentes significados de , mas isso não importa nesta análise.) Ergo , dependendo do modelo, correlação espacial é normalmente representado como uma combinação de uma tendência e uma estrutura de correlação estipulada para erros aleatórios.( β 1 ( z 1 - z ′ 1 ) + β 2 ( z 2 - z 2 ) ′ ) 2 - 2 C 2 ( z , z ′ ) C i ( z , z )E[(y(z)−y(z′))2](β1(z1−z′1)+β2(z2−z2)′)2−2C2(z,z′)Ci(z,z)
Agora, espero, temos uma resposta clara à pergunta: pode-se representar a idéia por trás da Lei da Geografia de Tobler ("tudo está relacionado a todo o resto, mas as coisas mais próximas estão mais relacionadas") de maneiras diferentes. Em alguns modelos, a Lei de Tobler é adequadamente representada pela inclusão de tendências (ou termos "à deriva") que são funções de coordenadas espaciais como longitude e latitude. Em outros, a Lei de Tobler é capturada por meio de uma estrutura de covariância não trivial entre termos aleatórios aditivos (oε) Na prática, os modelos incorporam os dois métodos. Qual você escolhe depende do que deseja realizar com o modelo e de sua visão de como a autocorrelação espacial surge - seja implícita por tendências subjacentes ou refletindo variações que você deseja considerar aleatórias. Nenhum dos dois está sempre certo e, em qualquer problema, muitas vezes é possível usar os dois tipos de modelos para analisar os dados, entender o fenômeno e prever seus valores em outros locais (interpolação).