Modelo para estimativa de densidade populacional

Um banco de dados de (população, área, forma) pode ser usado para mapear a densidade populacional atribuindo um valor constante de população / área a cada forma (que é um polígono, como um bloco de recenseamento, área, município, estado, qualquer que seja). No entanto, as populações geralmente não são distribuídas uniformemente dentro de seus polígonos. O mapeamento dasimétrico é o processo de refinar essas estimativas de densidade por meio de dados auxiliares. É um problema importante nas ciências sociais, como indica esta revisão recente .

Suponha, então, que tenhamos disponível um mapa auxiliar da cobertura do solo (ou qualquer outro fator discreto). No caso mais simples, podemos usar áreas obviamente inabitáveis, como corpos d'água, para delinear onde a população não está e, consequentemente, atribuir toda a população às demais áreas. De maneira mais geral, cada unidade do Censo é esculpida em partes com áreas de superfície , . Nosso conjunto de dados é aumentado para uma lista de tuplas $j$ $k$ $x_{ji}$ $i = 1, 2, \ldots, k$

(y_{j}, x_{j 1}, x_{j 2}, \dots, x_{j k})

$(y_{j}, x_{j1}, x_{j2}, \ldots, x_{jk})$

onde é a população (assumida medida sem erro) na unidade e - embora este não seja estritamente o caso - podemos assumir que cada também é exatamente medido. Nesses termos, o objetivo é particionar cada em uma soma $y_{j}$ $j$ $x_{ji}$ $y_{j}$

y_{j} = z_{j 1} + z_{j 2} + \dots + z_{j k}

$y_j = z_{j1} + z_{j2} + \cdots + z_{jk}$

onde cada e estima a população dentro da unidade reside na classe de cobertura do solo . As estimativas precisam ser imparciais. Essa partição refina o mapa de densidade populacional atribuindo a densidade à interseção do polígono do censo e a classe de cobertura da terra . $z_{ji} \ge 0$ $z_{ji}$ $j$ $i$ $z_{ji}/x_{ji}$ $j^{\text{th}}$ $i^{\text{th}}$

Esse problema difere das configurações de regressão padrão de maneiras destacadas:

O particionamento de cada deve ser exato. $y_{j}$
Os componentes de cada partição devem ser não negativos.
Não existe (por suposição) nenhum erro em nenhum dado: toda a população conta e todas as áreas estão corretas. $y_{j}$ $x_{ji}$

Existem muitas abordagens para uma solução, como o método de " mapeamento dasimétrico inteligente ", mas todas as que eu já li têm elementos ad hoc e um potencial óbvio de viés. Estou procurando respostas que sugeram métodos estatísticos criativos e tratáveis por computador. A aplicação imediata refere-se a uma coleção de c. - Unidades censitárias com uma média de 40 pessoas cada (embora uma fração considerável tenha 0 pessoas) e cerca de uma dúzia de classes de cobertura da terra. $10^{5}$ $10^{6}$

modeling unbiased-estimator spatial

— whuber
fonte

Problema de formatação agora corrigido. Foi um besouro.

— precisa

@ Rob Obrigado, e obrigado a todas as pessoas que olharam para isso: vi seus comentários antes de serem excluídos e sou grato por seus esforços.

— whuber

Também este: P. A Zandbergen e D. A Ignizio, “Comparação de Técnicas de Mapeamento Dasimétrico para Estimativas de População em Pequenas Áreas”, Cartografia e Ciência da Informação Geográfica 37, no. 3 (2010): 199-214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/… O que parece ser uma mistura.

— precisa saber é

Este artigo pode ser útil: Hwahwan Kim e Xiaobai Yao, “Interpolação picnofilática revisitada: integração com o método de mapeamento dasimétrico”, International Journal of Remote Sensing 31, no. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805

— fgregg

O mapeamento dasimétrico, em última análise, é um problema de inferência ecológica. O trabalho recente de K. Imai pode ser útil: pan.oxfordjournals.org/content/16/1/41.abstract

— fgregg

Respostas:

Você pode verificar o trabalho de Mitchel Langford no mapeamento dasimétrico.

Ele constrói criadores que representam a distribuição populacional do País de Gales e algumas de suas abordagens metodológicas podem ser úteis aqui.

Atualização: Você também pode dar uma olhada no trabalho de Jeremy Mennis (especialmente esses dois artigos).

— radek
fonte

Obrigado. Esse trabalho fornece um ponteiro para uma rede de pesquisas recentes sobre mapeamento dasimétrico.

— whuber

Pergunta interessante. Aqui está uma tentativa de abordar isso de um ângulo estatístico. Suponha que tenhamos uma maneira de atribuir uma contagem de população a cada área . Indique esse relacionamento como abaixo: $x_{ji}$

$z_{ji} = f(x_{ji},\beta)$

Claramente, qualquer forma funcional que impormos a Será, na melhor das hipóteses, uma aproximação ao relacionamento real e, portanto, a necessidade de incorporar o erro na equação acima. Assim, o acima se torna: $f(.)$

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

Onde,

$\epsilon_{ji} \sim N(0,\sigma^2)$

A suposição de erro distributivo no termo de erro é para fins ilustrativos. Se necessário, podemos alterá-lo conforme apropriado.

No entanto, precisamos de uma decomposição exata de . Portanto, precisamos impor uma restrição aos termos do erro e à função Como abaixo: $y_{ji}$ $f(.)$

$\sum_i{\epsilon_{ji}} = 0$

$\sum_i{f(x_{ji},\beta)} = y_j$

Denote o vetor empilhado de por e os termos determinísticos empilhados de por . Assim, temos: ${z_{ji}}$ $z_j$ ${f(x_{ji},\beta)}$ $f_j$

$z_j \sim N(f_j,\sigma^2 I) I({f_j}' e = y_j) I((z_j-f_j)' e = 0)$

Onde,

$e$ é um vetor daqueles de dimensão apropriada.

A primeira restrição de indicador captura a ideia de que a soma dos termos determinísticos deve somar e o segundo captura a idéia de que os resíduos de erro devem somar 0. $y_j$

A seleção de modelos é mais complicada, pois estamos decompondo exatamente o observado . Talvez, uma maneira de abordar a seleção de modelos seja escolher o modelo que produz a menor variação de erro, ou seja, aquele que produz a menor estimativa de . $y_j$ $\sigma^2$

Editar 1

Pensando um pouco mais, a formulação acima pode ser simplificada, pois possui mais restrições do que o necessário.

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

Onde,

$\epsilon_{ji} \sim N(0,\sigma^2)$

Denote o vetor empilhado de por e os termos determinísticos empilhados de por . Assim, temos: ${z_{ji}}$ $z_j$ ${f(x_{ji},\beta)}$ $f_j$

$z_j \sim N(f_j,\sigma^2 I) I({z_j}' e = y_j)$

Onde,

$e$ é um vetor daqueles de dimensão apropriada.

A restrição em garante uma decomposição exata. $z_j$

@ Krikant Obrigado. Eu estava pensando em linhas semelhantes quando fiz a pergunta e, desde então, testei uma GLM (distribuição de Poisson com link linear ), bem como alguns outros modelos. Infelizmente, agora parece que qualquer modelo baseado apenas no tipo e proporção de cobertura do solo não funcionará bem: uma amostra desses dados sugere que os padrões populacionais dependem de um contexto espacial maior. Então, no mínimo, precisaríamos incluir covariáveis espacialmente defasadas em um modelo linear.

— whuber