Podemos modelar fatores não aleatórios como aleatórios em um design multinível / hierárquico?

A distinção entre variáveis estritamente aleatórias (que devem ser modeladas como tais) e variáveis não aleatórias que alguns argumentam que poderiam ser modeladas como aleatórias se for um modelo hierárquico / multinível, é pouco clara para mim.

Bates e Bolker exemplificam efeitos aleatórios com casos de verdadeira aleatoriedade, por exemplo, qualidade de produtos em amostras selecionadas aleatoriamente. Embora o lme4trabalho deles seja incrível, ainda não está claro onde a linha vai entre aleatória e não aleatória. As discussões nas ciências sociais tornam isso ainda mais embaçado. Modelos multiníveis / hierárquicos e modelos de efeito aleatório são computacionalmente iguais lme4; então, onde traçamos a linha?

Por exemplo, eu tenho um conjunto de dados com medidas repetidas em vários indivíduos (isso é aleatório!), Mas acredito, e resulta do lme4programa, que uma grande proporção de variação está dentro de suas variáveis socioeconômicas (como área de vida, raça etc.). Essas variáveis não são aleatórias, mas os modelos multiníveis argumentam que elas podem ser usadas como tal. Outros exemplos vêm de estudos sobre as notas dos alunos, geralmente aninhando os alunos nos professores e ainda mais nas escolas. Todas essas variáveis são constantes.

Podemos modelar fatores não aleatórios como aleatórios se for plausível no domínio dos modelos multiníveis (hierárquicos)?

random-effects-model mixed-model

— Adam Robinsson
fonte

Veja aqui: stats.stackexchange.com/questions/4700/…

— Tim

E aqui: stats.stackexchange.com/questions/26230/…

— Tim

Oi Tim. Obrigado pelos links, mas eles realmente não respondem à pergunta. Entendo o significado de efeitos aleatórios, mistos e fixos. Esta questão é se projetos multiníveis / hieararchical permitem a incorporação de variáveis não aleatórias como aleatórias.

— Adam Robinsson

Estou intrigado com sua pergunta. Eu sei que você diz que entende efeitos fixos vs. aleatórios, mas talvez você não os entenda da mesma maneira que eu. Eu publiquei um trecho bastante extenso de um in-prima capítulo de livro aqui que explica meu ponto de vista (em vez pragmática, bastante alinhado com Andrew Gelman de).

Respondendo mais diretamente à pergunta:

(IMO) não faz sentido incluir os principais efeitos de variáveis socioeconômicas, como renda aleatoriamente. Se você tivesse mais de uma medida de renda por indivíduo, poderia incluir o indivíduo como uma variável de agrupamento e permitir que os efeitos da renda na resposta (o que quer que seja) variem entre os indivíduos.
Raça parece fazer mais sentido como um efeito fixo, e é improvável que você seja capaz de medir um indivíduo sob os efeitos de mais de uma corrida, mas você pode (por exemplo) ser capaz de caracterizar variações aleatórias nos efeitos de corrida em diferentes países. Você poderia tratá-lo como um efeito aleatório (ou seja, diferenças de modelo entre raças como extraídas de uma distribuição Normal), mas é provável que seja impraticável porque você provavelmente não terá raças diferentes suficientes no seu conjunto de dados, e seria difícil para me a apresentar um bom argumento conceitual para isso também ...
"área de vida" faz sentido como uma variável de agrupamento, o que certamente poderia ser um efeito aleatório razoável (isto é, a interceptação varia entre as áreas de vida). O indivíduo provavelmente estaria aninhado dentro da área, a menos que os indivíduos se movam entre as áreas ao longo da escala de tempo do seu estudo.
sua situação parece ser um caso em que você tem alguma variação aleatória entre indivíduos, mas também possui covariáveis em nível individual. A adição dessas covariáveis em nível individual (raça, renda etc.) ao modelo representará parte da variabilidade entre indivíduos (e provavelmente é uma boa idéia).

Pode adicionar clareza para distinguir entre variáveis de agrupamento (que devem ser categóricas), que representam os grupos nos quais as coisas variam e efeitos , que são as diferenças em algum parâmetro / efeito (geralmente a interceptação, mas podem ser os efeitos da renda / educação / o que for) entre os níveis de alguma variável de agrupamento.

atualização : tomarei a liberdade de dar um contraponto ao seu

Minha compreensão dos efeitos aleatórios: fatores que são selecionados aleatoriamente em uma população;

Talvez isso dependa da sua perspectiva filosófica. Isso é exigido no paradigma freqüentista clássico, mas eu o relaxaria um pouco, perguntando se é razoável tratar os efeitos como sendo sorteios aleatórios de alguma população hipotética. (Os exemplos clássicos aqui são: (1) amostragem exaustiva (e se você tiver medidas para todos os bairros da cidade ou para cada região / província / estado de um país? Você ainda pode tratá-los como desenhos aleatórios de alguma superpopulação? E (2 ) períodos medidos sequencialmente (por exemplo, anos 2002-2012) .Em ambos os casos, eu diria que faz sentido pragmático modelá-los usando efeitos aleatórios.)

os níveis do fator são de pouco interesse;

não necessariamente. Não acho que a ideia de que efeitos aleatórios devam ser variáveis incômodas se sustente na prática. Por exemplo, nas análises de criação de animais, pode-se estar muito interessado em conhecer o valor de criação (BLUP) de um animal em particular. (O chamado nível de foco tem algumas implicações na forma como se compara modelos.)

variáveis são fatores não observados.

Não sei ao certo o que isso significa. Você sabe de que bairro cada observação vem, certo? Como isso é "não observado"? (Se você suspeitou de agrupar seus dados com base em fatores não observados , seria necessário ajustar um modelo de mistura discreto .) Se você quer dizer que não sabe por que os bairros são diferentes, não acho que isso importe aqui.

Então, tome bairro como um exemplo. É minha variável de interesse principal, os níveis são importantes. Uso modelos mistos e verifico que existe uma grande variação nele.

A única razão pela qual posso pensar em não usar vizinhança como um efeito aleatório seria se você tivesse medido apenas um pequeno número (digamos <6) de vizinhanças.

— Ben Bolker
fonte

Minha compreensão dos efeitos aleatórios: fatores que são selecionados aleatoriamente em uma população; os níveis do fator são de pouco interesse; variáveis são fatores não observados. Então, tome bairro como um exemplo. É minha variável de interesse principal, os níveis são importantes. Uso modelos mistos e verifico que existe uma grande variação nele. Você notou que poderia ser usado como uma variável aleatória. Então, eu modelo uma variável não aleatória como sendo aleatória; isso é um pouco confuso para mim, mas sua resposta esclarece isso. Vou ler o trecho imediatamente. Obrigado pela resposta, aprecie seu tempo.

— Adam Robinsson

Infelizmente, não notei sua atualização até agora, professor Bolker. Na verdade, acho que consegui entender agora. Não é uma coisa supersimples, todo o conceito de modelo misto e acho que pode levar algum tempo para entender. De fato, há uma abundância de perguntas semelhantes, então acho que não sou a única. No entanto, obrigado por uma resposta esclarecedora. Estimado.

— Adam Robinsson