O que você pode fazer quando tiver variáveis ​​preditoras baseadas em médias de grupo com diferentes tamanhos de amostra?


14

Considere um problema de análise de dados clássico onde você tem um resultado e como ela está relacionada a uma série de preditores X i 1 , . . . , X i p . O tipo básico de aplicação em mente aqui é queYiXi1,...,Xip

  1. é algum resultado em nível de grupo, como a taxa de criminalidade na cidade i .Yii

  2. Os preditores são características em nível de grupo, como características demográficas da cidade .i

O objetivo básico é ajustar um modelo de regressão (talvez com efeitos aleatórios, mas esqueça isso por enquanto):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

Existe alguma dificuldade técnica quando um (ou mais) dos preditores é o resultado de uma pesquisa que tem diferentes tamanhos de amostra para cada unidade? Por exemplo, suponha que é uma pontuação de resumo para cidade i que é a resposta média de uma amostra de indivíduos da cidade de i , mas o tamanho das amostras estas médias foram baseadas em são totalmente diferentes:Xi1ii

CitySample size120210033004553

Como as variáveis ​​preditoras nem todas têm o mesmo significado, em certo sentido, para cada cidade, receio que condicionar essas variáveis ​​em um modelo de regressão como se todas elas fossem "criadas da mesma forma" poderia causar algumas inferências enganosas.

Existe um nome para este tipo de problema? Em caso afirmativo, existem pesquisas sobre como lidar com isso?

Meu pensamento é tratá-lo como uma variável preditora medida com erro e fazer algo nesse sentido, mas há heterocedasticidade nos erros de medição, o que seria muito complicado. Eu poderia estar pensando nisso da maneira errada ou pode estar tornando isso mais complicado do que é, mas qualquer discussão aqui seria útil.


8
Isso é chamado de problema "erros heterocedásticos nas variáveis". (Essa frase é um bom alvo para uma pesquisa no Google.) Recentemente (2007), Delaigle e Meister propuseram um estimador não paramétrico de densidade de kernel em um artigo da JASA . Um resumo sobre alguns métodos paramétricos (método dos momentos e MLE) sugere algumas abordagens adicionais: sciencedirect.com/science/article/pii/S1572312709000045 . (Não estou familiarizado o suficiente com a pesquisa para fornecer uma resposta autorizada sobre como lidar com seu conjunto de dados específico.)
whuber

1
@whuber +1 nos dois comentários. Eu acho que "erros nas variáveis" era a palavra-chave que estava faltando. Se ninguém der uma resposta forte abaixo que eu possa aceitar, examinarei a literatura e voltarei a postar o que acabo fazendo como resposta.
Macro

Respostas:



0

σ2Xiσ2/ninii


Isso parece razoável, embora eu esperasse evitar modelar o erro de medição. Se eu seguisse nessa direção, o que você usaria para estimar o efeito de um preditor medido com erro? Eu usei um método chamado SIMEX, mas isso parece incomum e estou me perguntando se existem outras opções.
Macro

@ Macro Não estou familiarizado com software específico para modelagem de regressão com uma função de variação a ser estimada.
22912 Michael Michael Chernick

3
Macro, como regra geral na regressão de erros nas variáveis ​​homocedásticos, se os erros nos IVs forem pequenos em comparação aos erros no DV, você poderá ignorar com segurança o primeiro e recorrer à regressão comum. Isso fornece uma maneira rápida e simples de fazer a triagem do problema.
whuber

1
@ Whuber, obrigado - isso é útil. Parece que, se essa regra prática fizer sentido, faria sentido no caso heterocedástico usar "se a maior variação de erro nos IVs for pequena em comparação com a variação de erro no DV, você poderá ignorar o problema com segurança". uma regra prática razoável, que é uma condição que pode realmente ser atendida nos dados que estou analisando.
Macro

1
σ211/n(.05,1)YEu
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.