Por que as variáveis ​​independentes de centralização podem alterar os principais efeitos com moderação?


28

Eu tenho uma pergunta relacionada à regressão e interação múltipla, inspirada neste tópico do CV: Termo de interação usando análise de regressão hierárquica de variáveis ​​centralizadas? Quais variáveis ​​devemos centralizar?

Ao verificar um efeito de moderação, centralizo minhas variáveis ​​independentes e multiplico as variáveis ​​centralizadas para calcular meu termo de interação. Depois, executo minha análise de regressão e verifico os efeitos principais e de interação, que podem mostrar a moderação.

Se eu refazer a análise sem centragem, aparentemente, o coeficiente de determinação ( ) não se altera, mas os coeficientes de regressão ( β s) fazer. Isso parece claro e lógico.R2β

O que eu não entendo: Os valores p dos efeitos principais mudam substancialmente com a centralização, embora a interação não (o que é correto). Portanto, minha interpretação dos efeitos principais pode mudar drasticamente - apenas determinada pela centralização ou não. (Ainda são os mesmos dados, nas duas análises!)

Alguém pode esclarecer? - Porque isso significaria que a opção de centralizar minhas variáveis ​​seria obrigatória e todos deveriam fazê-lo para obter os mesmos resultados com os mesmos dados.


Muito obrigado por distribuir para esse problema e suas explicações abrangentes. Tenha certeza de que sua ajuda é muito apreciada!

Para mim, a maior vantagem da centralização é evitar a multicolinearidade. Ainda é bastante confuso estabelecer uma regra, centralizada ou não. Minha impressão é que a maioria dos recursos sugere se centralizar, embora haja alguns "riscos" ao fazê-lo. Novamente, quero destacar o fato de que dois pesquisadores que lidam com o mesmo material e dados podem concluir resultados diferentes, porque um se centra e o outro não. Acabei de ler uma parte de um livro de Bortz (ele era um professor e uma espécie de estrela da estatística na Alemanha e na Europa), e ele nem sequer menciona essa técnica; apenas aponta para ter cuidado na interpretação dos principais efeitos das variáveis ​​quando elas estão envolvidas nas interações.

Afinal, quando você realiza uma regressão com um IV, um moderador (ou segundo IV) e um DV, você recomendaria centralizar ou não?


5
Eu quase nunca uso a centralização, achando isso completamente desnecessário e confuso.
31813 Frank Harrell

3
Leia as respostas novamente com atenção. Suas conclusões não mudam quando você centraliza as variáveis ​​independentes ou aplica qualquer transformação linear - se elas forem desenhadas corretamente. A multicolinearidade devido à não centralização é um problema puramente numérico e tratado automaticamente por qualquer software decente.
Scortchi - Restabelece Monica

1
Esse fenômeno (de alteração dos valores de p) pode ser entendido como uma conseqüência da natureza quadrática das interações, conforme explicado em stats.stackexchange.com/questions/28730/… .
whuber

Respostas:


23

Em modelos sem termos de interação (ou seja, sem termos construídos como o produto de outros termos), o coeficiente de regressão de cada variável é a inclinação da superfície de regressão na direção dessa variável. É constante, independentemente dos valores das variáveis ​​e, portanto, pode-se dizer que mede o efeito geral dessa variável.

Nos modelos com interações, essa interpretação pode ser feita sem qualificação adicional apenas para as variáveis ​​que não estão envolvidas em nenhuma interação. Para uma variável envolvida nas interações, o coeficiente de regressão de "efeito principal" - ou seja, o coeficiente de regressão da variável por si só - é a inclinação da superfície de regressão na direção dessa variável, quando todas as outras variáveis ​​que interagir com essa variável tem valores zero , e o teste de significância do coeficiente refere-se à inclinação da superfície de regressão apenas nessa região do espaço do preditor. Como não há exigência de que realmente haja dados nessa região do espaço, o coeficiente de efeito principal pode ter pouca semelhança com a inclinação da superfície de regressão na região do espaço do preditor onde os dados foram realmente observados.

Em termos anova, o coeficiente de efeito principal é análogo a um efeito principal simples, não a um efeito principal geral. Além disso, pode se referir ao que em um design anova seriam células vazias nas quais os dados foram fornecidos extrapolando as células com dados.

Para uma medida do efeito geral da variável que é análoga a um efeito principal geral na anova e não extrapola além da região na qual os dados foram observados, devemos observar a inclinação média da superfície de regressão na direção da variável , onde a média é superior aos N casos que foram realmente observados. Essa inclinação média pode ser expressa como uma soma ponderada dos coeficientes de regressão de todos os termos do modelo que envolvem a variável em questão.

Os pesos são difíceis de descrever, mas fáceis de obter. O coeficiente de efeito principal de uma variável sempre recebe um peso de 1. Para cada um dos coeficientes de um termo envolvendo essa variável, o peso é a média do produto das outras variáveis ​​nesse termo. Por exemplo, se tivermos cinco variáveis ​​"brutas" x1, x2, x3, x4, x5, mais quatro interações de duas vias (x1,x2), (x1,x3), (x2,x3), (x4,x5)e uma de três (x1,x2,x3), o modelo será

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

e os principais efeitos gerais são

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

onde M [.] indica a média da amostra da quantidade entre parênteses. Todos os termos do produto dentro dos colchetes estão entre os que foram construídos para fazer a regressão; portanto, um programa de regressão já deve conhecê-los e deve poder imprimir seus meios mediante solicitação.

Nos modelos que têm apenas efeitos principais e interações bidirecionais, existe uma maneira mais simples de obter os efeitos gerais: centralize [1] as variáveis ​​brutas de suas maneiras. Isso deve ser feito antes do cálculo dos termos do produto e não deve ser feito com os produtos. Então todas as expressões M [.] Se tornarão 0 e os coeficientes de regressão serão interpretáveis ​​como efeitos gerais. Os valores dos b's mudarão; os valores dos B não serão. Somente as variáveis ​​envolvidas nas interações precisam ser centralizadas, mas geralmente não há mal algum em centralizar outras variáveis ​​medidas. O efeito geral de centralizar uma variável é que, além de alterar a interceptação, ela altera apenas os coeficientes de outras variáveis ​​que interagem com a variável centralizada. Em particular, não altera os coeficientes de nenhum termo que envolva a variável centralizada. No exemplo acima, centralizar x1 mudaria b0, b2, b3 e b23.

[1 - "Centralização" é usada por pessoas diferentes de maneiras que diferem apenas o suficiente para causar confusão. Conforme usado aqui, "centralizar uma variável em #" significa subtrair # de todas as pontuações na variável, convertendo as pontuações originais em desvios de #.]

Então, por que nem sempre se concentra nos meios, rotineiramente? Três razões Primeiro, os coeficientes de efeito principal das variáveis ​​não centradas podem ser de interesse. A centralização nesses casos seria contraproducente, pois altera os coeficientes de efeito principal de outras variáveis.

Segundo, a centralização fará todas as expressões M [.] 0 e, portanto, converterá efeitos simples em efeitos gerais, apenas em modelos sem interações de três vias ou superiores . Se o modelo contiver essas interações, os cálculos b -> B ainda deverão ser feitos, mesmo que todas as variáveis ​​estejam centralizadas em suas médias.

Terceiro, centralizar em um valor como a média, que é definido pela distribuição dos preditores em vez de ser escolhido racionalmente, significa que todos os coeficientes afetados pela centralização serão específicos para sua amostra em particular. Se você se centra na média, alguém que tenta replicar seu estudo deve se centrar na média, e não na média deles, se quiser obter os mesmos coeficientes que você obteve. A solução para esse problema é centralizar cada variável em um valor central escolhido racionalmente dessa variável, que depende do significado das pontuações e não depende da distribuição das pontuações. No entanto, os cálculos b -> B ainda são necessários.

A significância dos efeitos gerais pode ser testada pelos procedimentos usuais para testar combinações lineares de coeficientes de regressão. No entanto, os resultados devem ser interpretados com cuidado, porque os efeitos gerais não são parâmetros estruturais, mas dependem do design. Os parâmetros estruturais - os coeficientes de regressão (sem centralização ou com centralização racional) e a variação do erro - podem permanecer invariáveis ​​sob as mudanças na distribuição dos preditores, mas os efeitos gerais geralmente mudam. Os efeitos gerais são específicos para uma amostra em particular e não se espera que sejam transferidos para outras amostras com distribuições diferentes nos preditores. Se um efeito geral é significativo em um estudo e não em outro, pode refletir nada mais que uma diferença na distribuição dos preditores.


10

β

y=β1x1+β2x2+β3x1x2+ϵβ1x1β3x1x2x1x1x2β

ββ1yx1 x2=0x1yx2β1x2

βx1yx2yx1x2


-1

Estou enlouquecendo com a mesma pergunta, mas finalmente encontrei a solução para você e meu problema. É TUDO SOBRE COMO CALCULAR SUAS VARIÁVEIS CENTRADAS. Duas opções estão disponíveis:
1. MÉDIA - VARIÁVEIS INDIVIDUAIS 2. VARIÁVEIS INDIVIDUAIS - MÉDIA
Você provavelmente calculou suas variáveis ​​centralizadas como (variável individual - valor médio) ; pontuações.
Vou explicar com um exemplo para facilitar a compreensão. Quero ver como a força muscular afeta a massa óssea e quero levar em consideração o sexo para ver se isso afeta de maneira diferente em meninas e meninos. A idéia é que quanto maior a força muscular, maior a massa óssea. Eu tenho, portanto:

Variável dependente: Massa óssea Variáveis ​​independentes: Sexo, força muscular, interação_SEX_MUSCLEForça.

Como encontrei a multicolinearidade (normalmente quando se tem um termo de interação), centralizei a força muscular (SIGNIFICADO - VARIAVEL INDIVIDUAL) e criei o novo termo de interação com a nova variável centralizada. Meus coeficientes foram

Constante: 0.902
Sexo: -0.010(Meninos = 0; Meninas = 1)
Músculo centrado: -0.023
Interação: 0.0002
Portanto, se você quisesse estimar a massa
óssea de um , teria a seguinte equação: Massa óssea =0.902(00.010)(0.023musclecentredvalue)+(Interaction0.0002)

Olhando para isso, você pode pensar que o músculo está afetando negativamente o osso, mas você deve pensar nas suas variáveis ​​centralizadas, não nas variáveis ​​originais. Digamos que a força muscular média do grupo fosse de 30 KG. E você deseja estimar a massa óssea de um garoto (WEAKBOY) que se apresentou 20 KGe outro que se apresentou 40KG(STRONGBOY). Os valores centralizados de WEAKBOY serão (VALOR DO GRUPO MÉDIO - VALOR INDIVIDUAL; 30 - 20 = 10), e para STRONGBOY será -10. Aplicando estes valores à equação:

WEAKBOY Massa óssea = 0,902-0 - (0,023 * 10) + .... = 0,672

STRONGBOY Massa óssea = 0,902 - (0,023 * (- 10)) + ... = 1,132

Como você pode ver, o STRONGBOY realmente terá um osso mais forte. Se você centrou suas variáveis ​​ao contrário: (INDIVIDUAL - MÉDIA), todos os coeficientes serão os mesmos, mas os símbolos serão diferentes. Isso ocorre quando você aplica a variável centralizada WEAKBOY será (-10) e STRONGBOY será (+10). Portanto, os resultados finais serão exatamente os mesmos.

Tudo faz sentido depois que você entende.

Espero que o exemplo seja claro o suficiente.


Este erro não explicaria as mudanças nos valores de p. BTW, sua opção (1) não é centralizada, porque inclui a multiplicação dos valores por uma constante também. (A constante é -1.)
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.