O que você pode fazer quando tiver variáveis preditoras baseadas em médias de grupo com diferentes tamanhos de amostra?

Considere um problema de análise de dados clássico onde você tem um resultado e como ela está relacionada a uma série de preditores . O tipo básico de aplicação em mente aqui é que $Y_{i}$ $X_{i1}, ..., X_{ip}$

é algum resultado em nível de grupo, como a taxa de criminalidade na cidade . $Y_{i}$ $i$
Os preditores são características em nível de grupo, como características demográficas da cidade . $i$

O objetivo básico é ajustar um modelo de regressão (talvez com efeitos aleatórios, mas esqueça isso por enquanto):

E (Y_{i} | X_{i}) = β_{0} + β_{1} X_{i 1} + . . . + β_{p} X_{i p}

$E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip}$

Existe alguma dificuldade técnica quando um (ou mais) dos preditores é o resultado de uma pesquisa que tem diferentes tamanhos de amostra para cada unidade? Por exemplo, suponha que é uma pontuação de resumo para cidade que é a resposta média de uma amostra de indivíduos da cidade de , mas o tamanho das amostras estas médias foram baseadas em são totalmente diferentes: $X_{i1}$ $i$ $i$

\begin{array}{cc} C i t y & S a m p l e s i z e \\ 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ ⋮ & ⋮ \end{array}

$\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ \vdots & \vdots \\ \end{array}$

Como as variáveis preditoras nem todas têm o mesmo significado, em certo sentido, para cada cidade, receio que condicionar essas variáveis em um modelo de regressão como se todas elas fossem "criadas da mesma forma" poderia causar algumas inferências enganosas.

Existe um nome para este tipo de problema? Em caso afirmativo, existem pesquisas sobre como lidar com isso?

Meu pensamento é tratá-lo como uma variável preditora medida com erro e fazer algo nesse sentido, mas há heterocedasticidade nos erros de medição, o que seria muito complicado. Eu poderia estar pensando nisso da maneira errada ou pode estar tornando isso mais complicado do que é, mas qualquer discussão aqui seria útil.

regression measurement-error errors-in-variables

— Macro
fonte

Isso é chamado de problema "erros heterocedásticos nas variáveis". (Essa frase é um bom alvo para uma pesquisa no Google.) Recentemente (2007), Delaigle e Meister propuseram um estimador não paramétrico de densidade de kernel em um artigo da JASA . Um resumo sobre alguns métodos paramétricos (método dos momentos e MLE) sugere algumas abordagens adicionais: sciencedirect.com/science/article/pii/S1572312709000045 . (Não estou familiarizado o suficiente com a pesquisa para fornecer uma resposta autorizada sobre como lidar com seu conjunto de dados específico.)

— whuber

@whuber +1 nos dois comentários. Eu acho que "erros nas variáveis" era a palavra-chave que estava faltando. Se ninguém der uma resposta forte abaixo que eu possa aceitar, examinarei a literatura e voltarei a postar o que acabo fazendo como resposta.

— Macro

Respostas:

O artigo "Um modelo de erros estruturais heterocedásticos em variáveis com erro de equação" pode ser baixado na página do autor:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers

basicamente, você deve levar em consideração a variabilidade de ambas as variáveis para evitar estimadores inconsistentes, testes de hipóteses não confiáveis e intervalos de confiança.

— Alexandre Patriota
fonte

$σ^2$ $X_i$ $σ^2/n_i$ $n_i$ $i$

— Michael R. Chernick
fonte

Isso parece razoável, embora eu esperasse evitar modelar o erro de medição. Se eu seguisse nessa direção, o que você usaria para estimar o efeito de um preditor medido com erro? Eu usei um método chamado SIMEX, mas isso parece incomum e estou me perguntando se existem outras opções.

— Macro

@ Macro Não estou familiarizado com software específico para modelagem de regressão com uma função de variação a ser estimada.

— 22912 Michael Michael Chernick

Macro, como regra geral na regressão de erros nas variáveis homocedásticos, se os erros nos IVs forem pequenos em comparação aos erros no DV, você poderá ignorar com segurança o primeiro e recorrer à regressão comum. Isso fornece uma maneira rápida e simples de fazer a triagem do problema.

— whuber

@ Whuber, obrigado - isso é útil. Parece que, se essa regra prática fizer sentido, faria sentido no caso heterocedástico usar "se a maior variação de erro nos IVs for pequena em comparação com a variação de erro no DV, você poderá ignorar o problema com segurança". uma regra prática razoável, que é uma condição que pode realmente ser atendida nos dados que estou analisando.

— Macro

σ^{2} \approx 1

$\sigma^2 \approx 1$

\approx 1 / n

$\approx 1/n$

(.05, 1)

$(.05,1)$

Y_{i}

$Y_i$

O que você pode fazer quando tiver variáveis ​​preditoras baseadas em médias de grupo com diferentes tamanhos de amostra?

O que você pode fazer quando tiver variáveis preditoras baseadas em médias de grupo com diferentes tamanhos de amostra?