Estou intrigado com sua pergunta. Eu sei que você diz que entende efeitos fixos vs. aleatórios, mas talvez você não os entenda da mesma maneira que eu. Eu publiquei um trecho bastante extenso de um in-prima capítulo de livro aqui que explica meu ponto de vista (em vez pragmática, bastante alinhado com Andrew Gelman de).
Respondendo mais diretamente à pergunta:
- (IMO) não faz sentido incluir os principais efeitos de variáveis socioeconômicas, como renda aleatoriamente. Se você tivesse mais de uma medida de renda por indivíduo, poderia incluir o indivíduo como uma variável de agrupamento e permitir que os efeitos da renda na resposta (o que quer que seja) variem entre os indivíduos.
- Raça parece fazer mais sentido como um efeito fixo, e é improvável que você seja capaz de medir um indivíduo sob os efeitos de mais de uma corrida, mas você pode (por exemplo) ser capaz de caracterizar variações aleatórias nos efeitos de corrida em diferentes países. Você poderia tratá-lo como um efeito aleatório (ou seja, diferenças de modelo entre raças como extraídas de uma distribuição Normal), mas é provável que seja impraticável porque você provavelmente não terá raças diferentes suficientes no seu conjunto de dados, e seria difícil para me a apresentar um bom argumento conceitual para isso também ...
- "área de vida" faz sentido como uma variável de agrupamento, o que certamente poderia ser um efeito aleatório razoável (isto é, a interceptação varia entre as áreas de vida). O indivíduo provavelmente estaria aninhado dentro da área, a menos que os indivíduos se movam entre as áreas ao longo da escala de tempo do seu estudo.
- sua situação parece ser um caso em que você tem alguma variação aleatória entre indivíduos, mas também possui covariáveis em nível individual. A adição dessas covariáveis em nível individual (raça, renda etc.) ao modelo representará parte da variabilidade entre indivíduos (e provavelmente é uma boa idéia).
Pode adicionar clareza para distinguir entre variáveis de agrupamento (que devem ser categóricas), que representam os grupos nos quais as coisas variam e efeitos , que são as diferenças em algum parâmetro / efeito (geralmente a interceptação, mas podem ser os efeitos da renda / educação / o que for) entre os níveis de alguma variável de agrupamento.
atualização : tomarei a liberdade de dar um contraponto ao seu
Minha compreensão dos efeitos aleatórios: fatores que são selecionados aleatoriamente em uma população;
- Talvez isso dependa da sua perspectiva filosófica. Isso é exigido no paradigma freqüentista clássico, mas eu o relaxaria um pouco, perguntando se é razoável tratar os efeitos como sendo sorteios aleatórios de alguma população hipotética. (Os exemplos clássicos aqui são: (1) amostragem exaustiva (e se você tiver medidas para todos os bairros da cidade ou para cada região / província / estado de um país? Você ainda pode tratá-los como desenhos aleatórios de alguma superpopulação? E (2 ) períodos medidos sequencialmente (por exemplo, anos 2002-2012) .Em ambos os casos, eu diria que faz sentido pragmático modelá-los usando efeitos aleatórios.)
os níveis do fator são de pouco interesse;
- não necessariamente. Não acho que a ideia de que efeitos aleatórios devam ser variáveis incômodas se sustente na prática. Por exemplo, nas análises de criação de animais, pode-se estar muito interessado em conhecer o valor de criação (BLUP) de um animal em particular. (O chamado nível de foco tem algumas implicações na forma como se compara modelos.)
variáveis são fatores não observados.
Não sei ao certo o que isso significa. Você sabe de que bairro cada observação vem, certo? Como isso é "não observado"? (Se você suspeitou de agrupar seus dados com base em fatores não observados , seria necessário ajustar um modelo de mistura discreto .) Se você quer dizer que não sabe por que os bairros são diferentes, não acho que isso importe aqui.
Então, tome bairro como um exemplo. É minha variável de interesse principal, os níveis são importantes. Uso modelos mistos e verifico que existe uma grande variação nele.
A única razão pela qual posso pensar em não usar vizinhança como um efeito aleatório seria se você tivesse medido apenas um pequeno número (digamos <6) de vizinhanças.