Considere um problema de análise de dados clássico onde você tem um resultado e como ela está relacionada a uma série de preditores X i 1 , . . . , X i p . O tipo básico de aplicação em mente aqui é que
é algum resultado em nível de grupo, como a taxa de criminalidade na cidade i .
Os preditores são características em nível de grupo, como características demográficas da cidade .
O objetivo básico é ajustar um modelo de regressão (talvez com efeitos aleatórios, mas esqueça isso por enquanto):
Existe alguma dificuldade técnica quando um (ou mais) dos preditores é o resultado de uma pesquisa que tem diferentes tamanhos de amostra para cada unidade? Por exemplo, suponha que é uma pontuação de resumo para cidade i que é a resposta média de uma amostra de indivíduos da cidade de i , mas o tamanho das amostras estas médias foram baseadas em são totalmente diferentes:
Como as variáveis preditoras nem todas têm o mesmo significado, em certo sentido, para cada cidade, receio que condicionar essas variáveis em um modelo de regressão como se todas elas fossem "criadas da mesma forma" poderia causar algumas inferências enganosas.
Existe um nome para este tipo de problema? Em caso afirmativo, existem pesquisas sobre como lidar com isso?
Meu pensamento é tratá-lo como uma variável preditora medida com erro e fazer algo nesse sentido, mas há heterocedasticidade nos erros de medição, o que seria muito complicado. Eu poderia estar pensando nisso da maneira errada ou pode estar tornando isso mais complicado do que é, mas qualquer discussão aqui seria útil.