Por que a codificação do tratamento resulta em uma correlação entre inclinação aleatória e interceptação?

Considere um planejamento fatorial dentro do sujeito e dentro do item, onde a variável de tratamento experimental possui dois níveis (condições). Seja m1o modelo máximo e m2o modelo sem correlações aleatórias.

m1: y ~ condition + (condition|subject) + (condition|item)
m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item)

Dale Barr afirma o seguinte para esta situação:
Editar (20/04/2018): Como Jake Westfall apontou, as seguintes declarações parecem se referir aos conjuntos de dados mostrados nas Fig. 1 e 2 neste site. No entanto, a nota principal permanece a mesma.

Em uma representação de codificação de desvio (condição: -0,5 vs. 0,5) m2permite distribuições, onde as interceptações aleatórias do sujeito não são correlacionadas com as inclinações aleatórias do sujeito. Somente um modelo máximo m1permite distribuições, onde os dois estão correlacionados.

Na representação de codificação do tratamento (condição: 0 vs. 1), essas distribuições, onde as interceptações aleatórias do sujeito não são correlacionadas com as inclinações aleatórias do sujeito, não podem ser ajustadas usando o modelo de correlações não aleatórias, pois em cada caso há uma correlação entre inclinação e interceptação na representação de codificação de tratamento.

Por que a codificação do tratamento ~~sempre~~ resultar em uma correlação entre inclinação aleatória e interceptação?

r mixed-model lme4-nlme categorical-encoding machine-learning pandas proportion r irt distributions conditional-probability kernel-smoothing r data-visualization r mixed-model sas curve-fitting matplotlib data-visualization python matplotlib regression logistic simulation sas jmp logit beta-regression regression maximum-likelihood posterior

— statmerkur
fonte

Respostas:

A codificação do tratamento nem sempre ou necessariamente resulta em correlação de interceptação / inclinação, mas tende a ocorrer com mais frequência. É mais fácil perceber por que esse é o caso usando imagens e considerando o caso de um preditor contínuo em vez de categórico.

Aqui está uma imagem de um conjunto de dados em cluster de aparência normal com aproximadamente 0 correlação entre as interceptações aleatórias e as inclinações aleatórias:

Mas agora veja o que acontece quando desloca o preditor X para a direita, adicionando 3 a cada valor X:

É o mesmo conjunto de dados em um sentido profundo - se ampliassemos os pontos de dados, pareceria idêntico ao primeiro gráfico, mas com o eixo X novamente rotulado - mas, simplesmente ao mudar X, induzimos uma correlação negativa quase perfeita entre as interceptações aleatórias e inclinações aleatórias. Isso acontece porque, quando trocamos X, redefinimos as interceptações de cada grupo. Lembre-se de que as interceptações sempre se referem aos valores Y, onde as linhas de regressão específicas do grupo cruzam X = 0. Mas agora o ponto X = 0 está longe do centro dos dados. Portanto, estamos extrapolando fora do intervalo dos dados observados para calcular as interceptações. O resultado, como você pode ver, é que quanto maior a inclinação, menor a interceptação e vice-versa.

Quando você usa a codificação de tratamento, é como fazer uma versão menos extrema da mudança de X representada no gráfico inferior. Isso ocorre porque os códigos de tratamento {0,1} são apenas uma versão alterada dos códigos de desvio {-0,5, 0,5}, onde uma mudança de +0,5 foi adicionada. Editar 2018-08-29: isso agora é ilustrado de forma mais clara e direta na segunda figura desta resposta mais recente minha para outra pergunta .

Como eu disse anteriormente, isso não é verdade por necessidade . É possível ter um conjunto de dados semelhante ao anterior, mas onde as inclinações e interceptações não são correlacionadas na escala deslocada (onde as intercepções se referem a pontos distantes dos dados) e correlacionadas na escala centralizada. Mas as linhas de regressão específicas do grupo em tais conjuntos de dados tendem a exibir padrões de "dispersão" que, na prática, simplesmente não são tão comuns no mundo real.

— Jake Westfall
fonte

+1 resposta muito boa.

— Ameba

Concorde com @amoeba, porque as ilustrações transmitem a ideia muito bem.

— whuber

@statmerkur Tenho certeza de que "em todos os casos" simplesmente se refere às 3 distribuições representadas na Figura 2 (e não, digamos, a todos os conjuntos de dados possíveis), todos os 3 que realmente mostram uma correlação diferente de zero. Então, acho que isso é apenas um mal-entendido gramatical.

— 21418 Jake Westfall

Talvez eu esteja sendo obtuso aqui, mas estou tendo dificuldades para conectar totalmente esta resposta à pergunta original. Essa resposta faz um ótimo trabalho demonstrando a situação em que a mudança de um preditor contínuo pode induzir correlações entre interceptações e declives aleatórios. Como a codificação do tratamento é equivalente à alteração de um preditor contínuo e como ela difere da codificação de desvio a esse respeito?

— 21918 Ryan Simmons

@RyanSimmons Como os códigos de tratamento {0,1} são apenas uma versão alterada dos códigos de desvio {-0,5, 0,5}, onde uma mudança de +0,5 foi adicionada. Vou editar a minha resposta para apontar mais claramente isso

— Jake Westfall

-1

Acredito que seja porque qualquer coisa que zero seja zero, então se você observar todas as quatro possíveis interações (multiplicações) de 0 e 1, três em cada quatro serão zero. Por outro lado, duas em cada quatro interações de -1 e 1 são 1 e duas são -1.

— Wayne
fonte