O que causa um padrão em forma de U no correlograma espacial?

Percebi em meu próprio trabalho esse padrão ao examinar um correlograma espacial em distâncias variadas, em que surge um padrão em forma de U nas correlações. Mais especificamente, fortes correlações positivas em pequenos compartimentos de distância diminuem com a distância, atingem um poço em um determinado ponto e depois subem de volta.

Aqui está um exemplo do blog Conservation Ecology, Macroecology playground (3) - Autocorrelação espacial .

Correlograma de Moran

Essas correlações automáticas positivas mais fortes a distâncias maiores violam teoricamente a primeira lei da geografia de Tobler, então eu esperaria que fosse causada por algum outro padrão nos dados. Eu esperaria que eles atingissem zero a uma certa distância e, em seguida, passassem o 0 em distâncias adicionais (o que normalmente acontece em gráficos de séries temporais com termos de AR ou MA de ordem baixa).

Se você fizer uma pesquisa de imagens no google, poderá encontrar alguns outros exemplos desse mesmo tipo de padrão (veja aqui outro exemplo). Um usuário no site GIS postou dois exemplos em que o padrão aparece no I de Moran, mas não no C de Geary ( 1 , 2 ). Em conjunto com meu próprio trabalho, esses padrões são observáveis para os dados originais, mas ao ajustar um modelo com termos espaciais e verificar os resíduos, eles parecem não persistir.

Não encontrei exemplos em análises de séries temporais que exibissem um gráfico de aparência semelhante ao ACF; portanto, não tenho certeza de qual padrão nos dados originais causaria isso. Scortchi neste comentário especula que um padrão sinusoidal pode ser causado por um padrão sazonal omitido nessa série temporal. O mesmo tipo de tendência espacial poderia causar esse padrão em um correlograma espacial? Ou é algum outro artefato da maneira como as correlações são calculadas?

Aqui está um exemplo do meu trabalho. A amostra é bastante grande e as linhas cinza-claras são um conjunto de 19 permutações dos dados originais para gerar uma distribuição de referência (para que se possa ver que a variação na linha vermelha deve ser bastante pequena). Portanto, embora o enredo não seja tão dramático quanto o primeiro mostrado, o poço e, em seguida, elevar-se a outras distâncias, aparecem bastante prontamente no enredo. (Observe também que o poço no meu não é negativo, como são os outros exemplos, se isso tornar os exemplos materialmente diferentes, não sei.)

insira a descrição da imagem aqui

Aqui está um mapa de densidade de kernel dos dados para ver a distribuição espacial que produziu o referido correlograma.

Crime do KDE em DC

autocorrelation spatial

— Andy W
fonte

I

$I$

Eu posso ver de onde isso vem @ user777, embora eu possa esperar um argumento semelhante que faça com que o enredo tenha tendência para 0, pois assintoticamente a vizinhança espacial fica maior. Ou seja, à medida que a vizinhança cresce, a média da vizinhança ficará mais próxima da média geral. Na minha cabeça (eu acho) isso faria a correlação ir para zero, mas não uma, mas eu poderia estar facilmente errado. (O mesmo argumento se aplica a série de tempo, bem como, e eu não lembro de ter visto quaisquer parcelas ACF para a série de tempo que se parecem com isso embora.)

— Andy W

O kde da DC me lembra um tabuleiro de xadrez. Como seria a plotagem de autocorrelação espacial de um tabuleiro de xadrez? Gostaria de saber se não seria alto a distâncias próximas (mesmo quadrado), baixo um pouco mais longe (quadrado diferente) e depois mais alto novamente. Eu não sei o suficiente sobre esse tópico para saber se essa é a resposta.

— gung - Restabelece Monica

@gung, depende de como você formula a distância nesse caso. Para um tabuleiro de xadrez com contiguidade de rainha , seria sinônimo de um termo auto-regressivo negativo, que para uma série temporal faria com que um gráfico de ACF fosse uma alternativa entre correlações positivas e negativas (e a onda diminuiria, provavelmente muito rapidamente nesse caso) ) É mais complicado, porém, na análise espacial do que nas séries temporais. Eu não caracterizaria esse padrão como um tabuleiro de xadrez.

— Andy W

Seu conjunto de dados realmente não tem cobertura espacial suficiente para estimar autocovariâncias a uma distância de 5 quilômetros (a área inteira não tem mais de 10 quilômetros de diâmetro e geralmente você deseja ter um conjunto de dados que cubra muitas vezes o correlação.) Parece-me que você tem basicamente três "bolhas" de alto crime em aproximadamente uma forma triangular, com as bolhas a cerca de 5K uma da outra e lacunas entre elas. Portanto, não é surpreendente ver correlação positiva nesse comprimento.

— Brian Borchers

Explicação

Um correlograma em forma de u é uma ocorrência comum quando seu cálculo é realizado em toda a extensão da região em que um fenômeno ocorre. Ele aparece particularmente com fenômenos semelhantes a plumas na natureza, como contaminação localizada em solos ou águas subterrâneas ou, como neste caso, onde o fenômeno está associado a uma densidade populacional que geralmente diminui em direção aos limites da área de estudo (o Distrito de Columbia, que possui um núcleo urbano de alta densidade e é cercada por subúrbios de menor densidade).

Lembre-se de que o correlograma resume o grau de similaridade de todos os dados de acordo com a quantidade de separação espacial. Valores mais altos são mais semelhantes, valores mais baixos, menos semelhantes. Os únicos pares de pontos nos quais a maior separação espacial pode ser alcançada são aqueles situados em lados diametralmente opostos do mapa. O correlograma, portanto, está comparando valores ao longo do limite entre si. Quando os valores dos dados tendem a diminuir globalmente em direção ao limite, o correlograma pode comparar apenas valores pequenos a valores pequenos. Provavelmente os achará muito semelhantes.

Portanto, para qualquer fenômeno semelhante a uma pluma ou outro fenômeno espacialmente unimodal, podemos antecipar, antes de coletar os dados, que o correlograma provavelmente diminuirá até que cerca da metade do diâmetro da região seja atingido e começará a aumentar.

Um efeito secundário: variabilidade da estimativa

Um efeito secundário é que existem mais pares de pontos de dados disponíveis para estimar o correlograma em distâncias curtas do que em distâncias maiores. Em distâncias médias a longas, as "populações de defasagem" desses pares de pontos diminuem. Isso aumenta a variabilidade do correlograma empírico. Às vezes, essa variabilidade sozinha cria padrões incomuns no correlograma. Evidentemente, um grande conjunto de dados foi usado na figura superior ("Moran's I"), o que reduz esse efeito, mas, mesmo assim, o aumento na variabilidade é evidente nas amplitudes maiores das flutuações locais no gráfico a distâncias superiores a 3500: exatamente metade da distância máxima.

Uma regra prática de longa data nas estatísticas espaciais é, portanto, evitar o cálculo do correlograma a distâncias maiores que a metade do diâmetro da área de estudo e evitar o uso de grandes distâncias para previsão (como interpolação).

Por que a periodicidade espacial não é a resposta completa

A literatura sobre estatística espacial observa, de fato, que padrões periódicos espacialmente podem causar uma recuperação no correlograma a distâncias maiores. Os geólogos da mineração chamam isso de "efeito de buraco". Existe uma classe de variogramas que incorporam um termo senoidal para modelá-lo. No entanto, todos esses variogramas impõem também um forte decaimento com a distância e, portanto, não podem explicar o retorno extremo à correlação total mostrada na primeira figura. Além disso, em duas ou mais dimensões, é impossível que um fenômeno seja isotrópico (no qual os correlogramas direcionais sejam todos iguais) e periódico. Portanto, a periodicidade dos dados por si só não será responsável pelo que é mostrado.

O que pode ser feito

A maneira correta de proceder em tais circunstâncias é aceitar que o fenômeno não é estacionário e adotar um modelo que o descreva em termos de alguma forma determinística subjacente - uma "deriva" ou "tendência" - com flutuações adicionais em torno dessa deriva que pode ter autocorrelação espacial (e temporal). Outra abordagem para dados como o crime conta é estudar uma variável relacionada diferente, como crime por unidade de população.

— whuber
fonte

Obrigado, você acha que é necessária alguma ponderação ad-hoc para efeitos de borda? (Isso pode ser um exagero para a análise exploratória dos resíduos do modelo.) Minha dissertação, na verdade, estou usando termos de tendência e desvio espacial não lineares - o crime por unidade de população é irritante por várias razões. A população residencial não é realmente a linha de base do interesse - é mais como caminhar pela população. Nas áreas internas da cidade, isso pode aumentar bastante (20 a 30 vezes) durante determinadas horas e está mais relacionado a instituições não residenciais (trabalho e entretenimento).

— Andy W

Você tem muitas opções, Andy, porque não há como identificar um modelo único: você precisa decidir onde deseja parar de modelar os valores em termos de uma deriva espacial e começar a modelá-los (ou melhor, seus resíduos) com um modelo espacial estocástico. O correlograma em forma de u pode ser entendido como uma forte indicação de que é necessário algum mecanismo de modelagem da deriva. A normalização por uma população relevante (mesmo que apenas possa ser estimada grosseiramente) é um método disponível para você. Incluir medidas de população (ou uso, etc.) como covariáveis é outra.

— whuber

Cheguei perto usando apenas um amplo conjunto de medidas de uso da terra em atividade (bares, postos de gasolina, hospitais, escolas etc.), além dos termos espaciais. Aqui está o mapa das previsões que mantêm essas outras covariáveis constantes . Ainda há um pouco de autocorrelação residual. Estou cético diante do erro quanto o mapeamento dasimétrico da população para lugares pequenos ajudará, mas imagino que vou realizar essa análise eventualmente.

— Andy W

Essa é uma abordagem baseada em princípios: deixe a teoria guiar o desenvolvimento do componente deriva do modelo e avalie os resíduos para decidir se valeria a pena modelar sua autocorrelação espacial. Em muitos casos, a maioria das relações espaciais aparentes é explicada adequadamente por termos de deriva e é raro precisar de todo o maquinário geoestatístico. Um aspecto intrigante do seu problema é que a métrica subjacente (distância espacial) deve ser o tempo de viagem ou a distância de viagem ao longo da rede de ruas em vez da distância euclidiana.

— whuber