Regularização L2 vs encolhimento de efeitos aleatórios


8

Uma propriedade fundamental da regressão de efeitos aleatórios é que as estimativas de interceptação aleatória são "reduzidas" em direção à média geral da resposta em função da variação relativa de cada estimativa.

ρJ=τ2/(τ2+σ2/nj).

U^j=ρjy¯j+(1ρj)y¯
onde
ρj=τ2/(τ2+σ2/nj).

Esse também é o caso de modelos mistos lineares generalizados (GLMMs), como a regressão logística.

Como esse encolhimento é melhor que / diferente da regressão logística de efeitos fixos com a codificação one-hot de variáveis ​​de ID e o encolhimento via regularização L2?

Em um modelo de efeitos fixos, posso controlar a quantidade de encolhimento alterando minha penalidade, , da regularização de L2, enquanto em um modelo de efeitos aleatórios não tenho controle sobre a quantidade de encolhimento. Seria correto dizer "use o modelo de efeitos aleatórios se o objetivo for inferência, mas use o modelo de efeitos fixos se o objetivo for previsão"?λ

Respostas:


8

Isso é um pouco simplificado. O encolhimento em uma regressão de efeitos mistos é ponderado pelo equilíbrio geral entre "classes" / "grupos" nas estruturas de efeitos aleatórios, portanto, não é que você não escolha, mas sim o tamanho e a força do seu grupo. evidência escolhe. (Pense nisso como uma média geral ponderada). Além disso, os modelos de efeitos mistos são muito úteis quando você tem vários grupos, mas há muito poucos dados em cada grupo: a estrutura geral e o pool parcial permitem inferências melhores, mesmo dentro de cada grupo!

Existem também variantes de modelos mistos LASSO (regularizado com L1), cumeeira (regularizado com L2) e rede elástica (combinação de regularização L1 e L2). Em outras palavras, essas coisas são ortogonais. Em termos bayesianos, você obtém contração de efeitos mistos por meio de sua estrutura hierárquica / modelo multinível e regularização por sua escolha anterior na distribuição dos coeficientes do modelo.

Talvez a confusão decorra do uso frequente da regularização no "aprendizado de máquina" (onde a previsão é o objetivo), mas do uso frequente de efeitos mistos nas "estatísticas" (onde a inferência é o objetivo), mas isso é mais um efeito colateral de outros aspectos de conjuntos de dados comuns nessas áreas (por exemplo, tamanho) e preocupações computacionais. Modelos de efeitos mistos são geralmente mais difíceis de ajustar, portanto, se um modelo de efeito fixo regularizado que ignora alguma estrutura dos dados for bom o suficiente para as previsões necessárias, pode não valer a pena ajustar um modelo de efeitos mistos. Mas se você precisar fazer inferências sobre seus dados, ignorar sua estrutura seria uma má idéia.


preciso e direto ao ponto.
Subhash C. Davar

Obrigado Livius. O encolhimento de efeitos aleatórios é semelhante ao de Bayes empírico? Se sim, ainda faria sentido reduzir ainda mais um modelo de efeitos aleatórios com regularização L2 / Bayesiana no topo? Meu objetivo é classificar os grupos pelo BLUP e usar a classificação em um modelo de previsão da próxima etapa.
Paman Gujral

Estou criando um modelo preditivo em um conjunto de dados de assistência médica no nível de episódio que contém vários episódios hospitalares por ID de membro. A maioria dos membros possui menos de 5 episódios. Penso que este é um caso em que uma regressão de laço ou crista aplicada aos efeitos fixos, mais um efeito aleatório para o campo de identificação do membro, seria apropriado.
RobertF 9/08/19

1
@PamanGujral você pode querer olhar para "Empirical Bayes Estimativa de efeitos aleatórios Parâmetros em Mixed Models Efeitos de regressão logística" pelo Ten Have e Localio
Adamo

"Os modelos de efeitos mistos são geralmente mais difíceis de ajustar..." Se o objetivo é levar em conta a correlação entre registros que compartilham o mesmo ID e existem milhares ou milhões de IDs únicos, adicionar um termo simples de interceptação aleatória à fórmula de regressão usando a fórmula listada na pergunta do OP parece razoável e razoavelmente simples Primeiro passo. Você está estimando apenas dois parâmetros em vez de um termo de efeito fixo para cada ID exclusivo menos um, o que economiza muito mais graus de liberdade.
robertf
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.