O trabalho de Gary King, em particular o livro "Uma Solução para o Problema da Inferência Ecológica" (os dois primeiros capítulos estão disponíveis aqui ), seria interessante (assim como o software que ele usa para a inferência ecológica). King mostra em seu livro como as estimativas de modelos de regressão usando dados agregados podem ser melhoradas examinando os limites potenciais de agrupamentos de nível inferior com base nos dados agregados disponíveis. O fato de seus dados serem principalmente agrupamentos categóricos os torna passíveis de utilização para essa técnica. (Embora não se deixe enganar, não é uma solução omnibus que você poderia esperar, com o título!) Existe um trabalho mais atual, mas o livro de King é o melhor lugar para começar.
Outra possibilidade seria apenas representar os limites potenciais dos próprios dados (em mapas ou gráficos). Assim, por exemplo, você pode ter a distribuição de sexo relatada no nível agregado (por exemplo, 5.000 homens e 5.000 mulheres), e você sabe que esse nível agregado abrange 2 diferentes unidades de área pequena da população 9.000 e 1.000 indivíduos. Você pode representar isso como uma tabela de contingência do formulário;
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Embora você não tenha as informações nas células para agregações de nível inferior, a partir dos totais marginais, podemos construir valores potenciais mínimos ou máximos para cada célula. Então, neste exemplo, oMen X Unit1
célula só pode assumir valores entre 4.000 e 5.000 (sempre que as distribuições marginais forem mais desiguais, menor o intervalo de valores possíveis que as células terão). Aparentemente, obter os limites da tabela é mais difícil do que eu esperava ( Dobra & Fienberg, 2000 ), mas parece que uma função está disponível na eiPack
biblioteca em R ( Lau et al., 2007, p. 43 ).
A análise multivariada com dados em nível agregado é difícil, pois o viés de agregação ocorre inevitavelmente com esse tipo de dados. (Em poucas palavras, eu descreveria apenas o viés de agregação, pois muitos processos diferentes de geração de dados em nível individual podem resultar em associações em nível agregado). Uma série de artigos na American Sociological Reviewna década de 1970, são algumas das minhas referências favoritas para os tópicos (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), embora fontes canônicas sobre o tópico possam ser (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Eu acho que representar os limites potenciais que os dados podem assumir poderia ser incitante, embora você esteja realmente prejudicado pelas limitações dos dados agregados para realizar análises multivariadas. Mas isso não impede ninguém de fazer isso nas ciências sociais (para melhor ou para pior!)
Observe (como Charlie disse nos comentários) que a "solução" de King recebeu uma quantidade considerável de críticas (Anselin & Cho, 2002; Freedman et al., 1998). Embora essas críticas não sejam de opinião sobre a matemática do método de King, mais ainda sobre quais situações nas quais o método de King ainda não responde pelo viés de agregação (e eu concordo com Freedman e Anselin nas situações em que os dados para as ciências sociais ainda são suspeitas são muito mais comuns do que aquelas que atendem às suposições de King). Esta é em parte a razão pela qual sugiro apenas examinar os limites (não há nada de errado nisso), mas fazer inferências sobre correlações em nível individual a partir desses dados exige muito mais saltos de fé que são injustificáveis na maioria das situações.
Citações
- Anselin, L. & WKT Cho (2002). Efeitos espaciais e inferência ecológica. Análise Política 10 (3): 276-297.
- Dobra A. e SE Fienberg (2000). Limites para entradas de células em tabelas de contingência, considerando totais marginais e gráficos decomponíveis. Anais da Academia Nacional de Ciências 97 (22): 11885-11892
- Firebaugh, G. (1978). Uma regra para inferir relacionamentos individuais a partir de dados agregados. American Sociological Review 43 (4): 557-572
- Fotheringham, AS e DW Wong (1991). O problema da unidade de área modificável na análise estatística multivariada. Meio ambiente e planejamento A 23 (7): 1025-1044
- Freedman, DA, SP Klein, M. Ostland e MR Roberts (1998). Trabalhos revisados: uma solução para o problema de inferência ecológica de G. King. Jornal da Associação Estatística Americana 93 (444): 1518-1522. (PDF aqui )
- Hammond, JL (1973) Duas fontes de erro nas correlações ecológicas. Revista Sociológica Americana 38 (6): 764-777
- Hannan, MT e L. Burstein (1974). Estimativa a partir de observações agrupadas. Revista Sociológica Americana 39 (3): 374-392
- King G. (1997). Uma solução para o problema de inferência ecológica: reconstruindo o comportamento individual a partir de dados agregados . Princeton: Princeton University Press.
- Lau O., RT Moore e M. Kellerman (2007). eiPack: Inferência ecológica RXC e gerenciamento de dados de maior dimensão. R News 7 (2): 43-47
- Oppenshaw, S. (1984). O problema da unidade regional modificável . Norwich: Geo Books. ( PDF aqui )
- Robinson, WS (1950). Correlações ecológicas e comportamento de indivíduos. American Sociological Review 15 (3): 351-357. ( PDF aqui )