Estimando parâmetros para um processo espacial

Eu sou dado um grade de valores inteiros positivos. Esses números representam uma intensidade que deve corresponder à força de crença de uma pessoa que ocupa esse local na grade (um valor mais alto indicando uma crença mais alta). Uma pessoa em geral terá influência sobre várias células da grade. $n\times n$

Acredito que o padrão de intensidades deve "parecer gaussiano", pois haverá uma localização central de alta intensidade e, em seguida, as intensidades diminuem radialmente em todas as direções. Especificamente, eu gostaria de modelar os valores como provenientes de um "Gaussiano escalado" com um parâmetro para a variação e outro para o fator de escala.

Existem dois fatores complicadores:

a ausência de uma pessoa não corresponderá a um valor zero, devido ao ruído de fundo e outros efeitos, mas os valores devem ser menores. Eles podem ser erráticos e, a princípio, pode ser difícil modelar como simples ruído gaussiano.
A faixa de intensidade pode variar. Por um exemplo, os valores podem variar entre 1 e 10 e, em outro, entre 1 e 100.

Estou procurando uma estratégia de estimativa de parâmetros apropriada ou ponteiros para a literatura relevante. Ponteiros para por que estou abordando esse problema da maneira errada também serão bem-vindos :). Eu tenho lido sobre kriging e processos gaussianos, mas isso parece uma maquinaria muito pesada para o meu problema.

estimation normal-distribution spatial

— Suresh Venkatasubramanian
fonte

O que você quer dizer com um gaussiano com um parâmetro de variância e escala? O parâmetro de variância é o parâmetro de escala de um gaussiano! Também estou um pouco inseguro sobre o modelo que você configurou até agora. Você pode descrever o problema que está realmente tentando resolver com mais detalhes? Usar um gaussiano para modelar observações com valor inteiro de baixa granularidade parece suspeito.

— cardeal

(+1) Para uma pergunta interessante. Ansioso para entender o que você está tentando resolver um pouco melhor.

— cardeal

Aqui estão várias observações: 1. Se seus valores são inteiros, o uso de Gaussian não parece apropriado. 2. Não está claro qual é o objetivo do seu modelo. Você deseja identificar os grupos de crenças fortes, por exemplo? Qual será a interpretação dos seus parâmetros se você os tiver? 3. Como você tem uma grade, por que não tentar ajustar uma mistura de distribuições bivariadas? Então a grade será o suporte da distribuição (por exemplo, quadrado unitário) e as intensidades corresponderão a regiões de alta probabilidade.

— Mvctas

Obrigado a todos pelos pontos interessantes. Deixe-me tentar esclarecer. A escolha de "gaussiano", à luz dos comentários, pode ser um arenque vermelho que causa mais confusão do que ajuda. A característica principal dos dados são os valores de alta intensidade no ponto de maior crença na localização da pessoa e a diminuição gradual "radial" em torno dela (o que observei empiricamente). Os valores de intensidade vêm da solução para um problema inverso (linear) e, portanto, não precisam necessariamente ser integrais - esses são apenas os dados que temos.

— Suresh Venkatasubramanian

Agradeço as tentativas de tornar a questão mais bem definida e melhor modelada. Farei o meu melhor para explicar a configuração real dos dados, a fim de convergir para as suposições de modelagem corretas.

— precisa saber é o seguinte

Respostas:

Você pode usar este módulo da biblioteca pysal python para os métodos de análise de dados espaciais discutidos abaixo.

Sua descrição de como a atitude de cada pessoa é influenciada pelas atitudes das pessoas ao seu redor pode ser representada por um modelo espacial auto-regressivo (SAR) (veja também minha explicação simples sobre SAR nesta resposta SE 2 ). A abordagem mais simples é ignorar outros fatores e estimar a força da influência de como as pessoas ao redor afetam as atitudes umas das outras usando a estatística I de Moran .

Se você deseja avaliar a importância de outros fatores enquanto estima a força da influência das pessoas ao redor, uma tarefa mais complexa, é possível estimar os parâmetros de uma regressão: . Veja os documentos aqui (os métodos para estimar esse tipo de regressão vêm do campo da econometria espacial e podem ficar muito mais sofisticados do que a referência que eu dei.) $y = bx + rhoWy + e$

Seu desafio será construir uma matriz de pesos espaciais ( ). Eu acho que cada elemento da matriz deve ser 1 ou 0 com base em se a pessoa está dentro de uma certa distância você sente que é necessário para influenciar a outra pessoa . $W$ $w_{ij}$ $i$ $j$

Para ter uma idéia intuitiva do problema, ilustro abaixo como um processo de geração de dados auto-regressivos (DGP) espacial criará um padrão de valores. Para as 2 treliças de valores simulados, os blocos brancos representam valores altos e os blocos escuros representam valores baixos.

Na primeira rede abaixo, os valores da grade foram gerados por um processo aleatório normalmente distribuído (ou Gaussiano), em que é zero. $rho$

Aleatório (Gaussiano)

$rho$ insira a descrição da imagem aqui

— b_dev
fonte

Isso é muito interessante (e o Geary C relacionado). Isso pode estar perto do que eu preciso.

— Suresh Venkatasubramanian

O Geary C ajuda a ver como os valores se aproximam de um outro cluster, até mesmo valores no meio da distribuição. O I de Moran ajuda você a ver como valores muito altos se agrupam com valores muito altos e valores muito baixos se agrupam em torno de valores muito baixos. Portanto, talvez você esteja correto e o método mais simples e melhor seja o C. de Geary. Lembre-se de que a abordagem C de Geary é exploratória e não permitirá que você condicione seus resultados a outros fatores. Veja neste módulo python o código para executar o C: pysal.org/1.1/library/esda/geary.html do Geary .

— b_dev 10/05

Deixe-me brincar com isso um pouco mais. Se parece fazer o que eu preciso (e acho que sim), isso soa como a melhor resposta.

— Suresh Venkatasubramanian

Aqui está uma idéia simples que pode funcionar. Como eu disse nos comentários, se você tem uma grade com intensidades, por que não se encaixa na densidade da distribuição bivariada?

Aqui está o gráfico de exemplo para ilustrar meu ponto: insira a descrição da imagem aqui

Cada ponto de grade com é exibido como um quadrado, colorido de acordo com a intensidade. Sobreposto ao gráfico está o gráfico de contorno do gráfico de densidade normal bivariada. Como você pode ver, as linhas de contorno se expandem na direção da intensidade decrescente. O centro será controlado pela média do normal bivariado e a difusão da intensidade de acordo com a matriz de covariância.

Para obter as estimativas da matriz de média e covariância, pode-se usar uma otimização numérica simples, compare as intensidades com os valores da função densidade usando a matriz de média e covariância como parâmetros. Minimize para obter as estimativas.

Obviamente, isso não é uma estimativa estatística, mas pelo menos lhe dará uma idéia de como prosseguir.

Aqui está o código para reproduzir o gráfico:

require(mvtnorm)
sigma=cbind(c(0.1,0.7*0.1),c(0.7*0.1,0.1))

x<-seq(0,1,by=0.01)
y<-seq(0,1,by=0.01)
z<-outer(x,y,function(x,y)dmvnorm(cbind(x,y),mean=mean,sigma=sigma))

mz<-melt(z)

mz$X1<-(mz$X1-1)/100
mz$X2<-(mz$X2-1)/100

colnames(mz)<-c("x","y","z")

mz$intensity<-round(mz$z*1000)

ggplot(mz, aes(x,y)) + geom_tile(aes(fill = intensity), colour = "white") + scale_fill_gradient(low = "white",     high = "steelblue")+geom_contour(aes(z=z),colour="black")

— mpiktas
fonte

$X[i,j]$ $X[i,j]$ $(X[i_1,j_1],...,X[i_m,j_m])$ $(X[i_1+k,j_1+l]...,X[i_m+k,j_m+l])$ $corr(X[i_1,j_1],X[i_2,j_2])$ $d([i_1,j_1],[i_2,j_2])$ $\rho(d)$ $\rho(d)=kd^{-1}$ $k$

Um efeito 'gaussiano' corresponde a uma função de distância quadrática, mas há muitas outras funções de distância que você deve considerar, como a norma do táxi $d([i_1,j_1],[i_2,j_2]) = |i_1-i_2|+|j_1-j_2|$ $\rho(d)$ por exemplo, via probabilidade máxima. Para mais idéias, procure por "campo aleatório".

— charles.y.zheng
fonte

"Quer assumir a estacionariedade espacial" parece contradizer diretamente a suposição do OP de que "as intensidades diminuem radialmente em todas as direções".

— whuber

Como assim? Esse padrão ocorreria com a estrutura de autocorrelação que propus.

— Charles.y.zheng

@charles É um ponto importante: se, de fato, essa tendência aparente deve ser atribuída à autocorrelação, então, em princípio, outra realização independente do processo pode parecer ter uma tendência dramaticamente diferente, como um aumento de valor em relação a um ponto central. Como o OP articulou e distinguiu claramente alguns elementos determinísticos da tendência (o "afilamento radial") e elementos correlacionais ("influenciam várias células da grade"), uma resposta que respeite isso provavelmente será vista de forma mais positiva do que a que afirma o OP "vai querer" mudar de idéia.

— whuber

Não sei se entendi a condição de estacionariedade espacial. Aparentemente, parece estar em desacordo com a idéia de ter um "pico que se afunila" em um local específico, mas claramente não estou entendendo alguma coisa.

— Suresh Venkatasubramanian

@charles, o padrão que você descreve estará presente para cada um dos pontos da grade, devido à suposição de estacionariedade espacial. A estacionariedade está basicamente dizendo que todos os meus pontos se comportam da mesma forma. Este não é o caso descrito pelo OP. A resposta ainda é muito boa, mas não é apropriada neste caso.

— Mvctas