Alternativas robustas ao I de Moran

O I de Moran , uma medida de autocorrelação espacial, não é uma estatística particularmente robusta (pode ser sensível a distribuições distorcidas dos atributos de dados espaciais).

Quais são algumas técnicas mais robustas para medir a autocorrelação espacial? Estou particularmente interessado em soluções prontamente disponíveis / implementáveis em uma linguagem de script como R. Se as soluções se aplicarem a circunstâncias / distribuições de dados exclusivas, especifique-as na sua resposta.

EDIT : Estou expandindo a pergunta com alguns exemplos (em resposta a comentários / respostas à pergunta original)

Foi sugerido que as técnicas de permutação (onde uma distribuição de amostragem de Moran I é gerada usando um procedimento de Monte Carlo) oferecem uma solução robusta. Meu entendimento é que esse teste elimina a necessidade de fazer suposições sobre a distribuição I de Moran (dado que a estatística do teste pode ser influenciada pela estrutura espacial do conjunto de dados), mas não consigo ver como a técnica de permutação corrige não-normalmente dados de atributo distribuído . Ofereço dois exemplos: um que demonstra a influência de dados distorcidos na estatística I local de Moran, o outro na I global de Moran - mesmo sob testes de permutação.

Vou usar Zhang et al. 's (2008) analisa como o primeiro exemplo. Em seu artigo, eles mostram a influência da distribuição de dados de atributos no I local de Moran usando testes de permutação (9999 simulações). Reproduzi os resultados do ponto de acesso dos autores para concentrações de chumbo (Pb) (no nível de confiança de 5%) usando os dados originais (painel esquerdo) e uma transformação de log dos mesmos dados (painel direito) no GeoDa. Também são apresentados gráficos de caixas das concentrações de Pb original e transformada em log. Aqui, o número de pontos de acesso significativos quase dobra quando os dados são transformados; este exemplo mostra que a estatística local é sensível à atribuição de distribuição de dados - mesmo ao usar técnicas de Monte Carlo!

insira a descrição da imagem aqui

O segundo exemplo (dados simulados) demonstra a influência que os dados distorcidos podem ter no I de Moran global , mesmo ao usar testes de permutação. Um exemplo, em R , segue:

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

Observe a diferença nos valores-P. Os dados distorcidos indicam que não há agrupamento no nível de significância de 5% (p = 0,167), enquanto os dados normalmente distribuídos indicam que existe (p = 0,013).

Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Uso de I e GIS locais de Moran para identificar pontos críticos de poluição do Pb em solos urbanos de Galway, Irlanda, Science of The Total Environment, Volume 398, Ed. 1-3, 15 de julho de 2008 , Páginas 212-221

algorithm r spatial-statistics

— MannyG
fonte

Você tem uma referência para a sensibilidade a distribuições distorcidas)? Você está interessado em testes globais de distribuição espacial não aleatória ou na identificação de características anormais locais? Qual é a distribuição do resultado de interesse (variável de contagem positivo?)

— Andy W

AndyW: 1) Uma referência à sensibilidade do teste é 'Spatial Analysis, A guide to ecologists', de Fortin e Dale (p. 125), 2) estou interessado em soluções para testes globais e locais, 3) não tenho informações específicas distribuição de dados em mente.

— MannyG

Andy, porque o I de Moran é baseado em estimativas de variância e covariância ponderadas, ele terá a mesma sensibilidade para valores extremos que essas estimativas, o que (como é bem conhecido) é considerável. Esse insight também indica o caminho para muitas soluções possíveis para o problema de Manny: substitua suas versões robustas favoritas de estimativas de dispersão e associação para formar uma correlação ponderada robusta e você estará em pleno funcionamento.

— whuber

Parece que você pode estar confundindo vários conceitos aqui, @Andy. Primeiro, Manny quer medir a autocorrelação; ele não está necessariamente conduzindo um teste de hipótese. Segundo, a pergunta com o teste de hipóteses é melhor estruturada em termos de poder e não de robustez. Mas (terceiro) os conceitos têm uma conexão: uma estatística de teste robusta tenderá a manter seu poder sob uma ampla gama de violações de premissas distributivas (como contaminação por outliers), enquanto uma estatística de teste não robusta pode perder a maioria ou a totalidade de seu poder nessas situações.

— whuber

@ FC84, revisitei esse problema no ano passado e escrevi uma solução proposta. Mas isso precisa ser verificado. Pretendo oferecer uma versão (muito) reduzida desse artigo como resposta aqui em algum momento. Sinta-se livre para recolher o que puder do que eu tenho. Mas use-o com cuidado!

— MannyG

(Neste momento, é complicado demais para se transformar em um comentário)

Isso se refere a testes locais e globais (não uma medida específica e independente de amostra de correlação automática). Compreendo que a medida I de Moran específica é uma estimativa tendenciosa da correlação (interpretando nos mesmos termos do coeficiente de correlação de Pearson), ainda não vejo como o teste da hipótese de permutação é sensível à distribuição original da variável ( em termos de erros do tipo 1 ou tipo 2).

Adaptar levemente o código que você forneceu no comentário (os pesos espaciais colqueenestavam ausentes);

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

Quando se realiza testes de permutação (neste caso, eu gosto de pensar nisso como um espaço confuso), o teste de hipótese da auto-correlação espacial global não deve ser afetado pela distribuição da variável, pois a distribuição de teste simulada mudará em essência com a distribuição das variáveis originais. É provável que se possa criar simulações mais interessantes para demonstrar isso, mas como você pode ver neste exemplo, as estatísticas de teste observadas estão bem fora da distribuição gerada para o original PLUMBe o logado PLUMB(que é muito mais próximo de uma distribuição normal) . Embora você possa ver a distribuição de teste PLUMB registrada sob os turnos nulos mais próximos da simetria de 0.

insira a descrição da imagem aqui

De qualquer maneira, eu sugeriria isso como alternativa, transformando a distribuição em aproximadamente normal. Eu também sugeriria procurar recursos na filtragem espacial (e similarmente nas estatísticas locais e globais da Getis-Ord), embora não tenha certeza de que isso também ajude com uma medida sem escala (mas talvez possa ser proveitosa para testes de hipóteses) . Mais tarde, voltarei a publicar com potencialmente mais literatura de interesse.

— Andy W
fonte

Obrigado Andy pela sua conta detalhada. Se eu entendi corretamente, você está implicando que, em um teste de permutação, a estatística do teste (I de Moran) não mudará em relação à distribuição resultante do MC, mas isso não concorda com minhas observações. Por exemplo, se usarmos a variável HOVAL no mesmo conjunto de dados de colombo, o valor p do teste I de MC Moran resultante vai de 0,029 (com os dados originais distorcidos) a 0,004 (com os dados transformados em log), indicando uma lacuna crescente entre o MC estatística de distribuição e teste - não é insignificante se tivéssemos definido o limite em 1%.

— MannyG

Sim, você está interpretando meu argumento corretamente. Certamente é possível encontrar qualquer execução específica na qual os resultados sejam diferentes. A questão passa a ser se as taxas de erro são ou não iguais em várias circunstâncias.

— Andy W