Como testar se um coeficiente de regressão é moderado por uma variável de agrupamento?

Eu tenho uma regressão feita em dois grupos da amostra com base em uma variável moderadora (digamos, sexo). Estou fazendo um teste simples para o efeito moderador, verificando se o significado da regressão é perdido em um conjunto enquanto permanece no outro.

Q1: O método acima é válido, não é?

P2: O nível de confiança da minha pesquisa é definido em 95%. Para um grupo, a regressão é significativa em 0,000. Para o outro, é significativo em 0,038. Então, acredito que tenho que aceitar ambas as regressões como significativas e que não há efeito moderador. Ao aceitar a regressão, é significativo enquanto ela não estiver em 0,01. Estou causando um erro do tipo I (aceitando o argumento falso)?

regression type-i-and-ii-errors interaction

— escorpião
fonte

Seu método parece não abordar a questão, supondo que um "efeito moderador" seja uma alteração em um ou mais coeficientes de regressão entre os dois grupos. Testes de significância em regressão avaliam se os coeficientes são diferentes de zero. Comparar valores de p em duas regressões diz pouco (se é que há) sobre as diferenças nesses coeficientes entre as duas amostras.

Em vez disso, introduza gênero como uma variável fictícia e interaja com todos os coeficientes de interesse. Em seguida, teste a significância dos coeficientes associados.

Por exemplo, no caso mais simples (de uma variável independente), seus dados podem ser expressos como uma lista de tuplas que são os sexos, codificadas como e . O modelo para o gênero é $(x_i, y_i, g_i)$ $g_i$ $0$ $1$ $0$

y_{i} = α_{0} + β_{0} x_{i} + ε_{i}

$y_i = \alpha_0 + \beta_0 x_i + \varepsilon_i$

(onde indexa os dados para os quais ) e o modelo para o gênero é $i$ $g_i = 0$ $1$

y_{i} = α_{1} + β_{1} x_{i} + ε_{i}

$y_i = \alpha_1 + \beta_1 x_i + \varepsilon_i$

(onde indexa os dados para os quais ). Os parâmetros são , , e . Os erros são . Vamos assumir que eles são independentes e distribuídos de forma idêntica com zero meios. Um modelo combinado para testar a diferença de inclinação (the 's) pode ser escrito como $i$ $g_i = 1$ $\alpha_0$ $\alpha_1$ $\beta_0$ $\beta_1$ $\varepsilon_i$ $\beta$

y_{i} = α + β_{0} x_{i} + (β_{1} - β_{0}) (x_{i} g_{i}) + ε_{i}

$y_i = \alpha + \beta_0 x_i + (\beta_1 - \beta_0) (x_i g_i) + \varepsilon_i$

(onde varia sobre todos os dados) porque, quando você define o último termo é eliminado, fornecendo o primeiro modelo com e quando você define os dois múltiplos de combinam para gerar , produzindo o segundo modelo com . Portanto, você pode testar se as pistas são iguais (o "efeito moderador") ajustando o modelo $i$ $g_i=0$ $\alpha = \alpha_0$ $g_i=1$ $x_i$ $\beta_1$ $\alpha = \alpha_1$

y_{i} = α + β x_{i} + γ (x_{i} g_{i}) + ε_{i}

$y_i = \alpha + \beta x_i + \gamma (x_i g_i) + \varepsilon_i$

e testando se o tamanho estimado do efeito moderador, , é zero. Se você não tiver certeza de que as interceptações serão iguais, inclua um quarto termo: $\hat{\gamma}$

y_{i} = α + δ g_{i} + β x_{i} + γ (x_{i} g_{i}) + ε_{i} .

$y_i = \alpha + \delta g_i + \beta x_i + \gamma (x_i g_i) + \varepsilon_i.$

Você não precisa necessariamente testar se é zero, se isso não for de seu interesse: está incluído para permitir ajustes lineares separados para os dois sexos, sem forçá-los a ter a mesma interceptação. $\hat{\delta}$

A principal limitação dessa abordagem é a suposição de que as variações dos erros são iguais para ambos os sexos. Caso contrário, é necessário incorporar essa possibilidade e isso exige um pouco mais de trabalho com o software para ajustar-se ao modelo e uma reflexão mais profunda sobre como testar a significância dos coeficientes. $\varepsilon_i$

— whuber
fonte

Obrigado, eu posso entender como isso funciona. Este método funciona se eu tiver várias variáveis moderadoras? Digamos, por exemplo, região (rural / urbana), nível de educação (ensino médio / não)? Posso adicionar variáveis fictícias adicionais e testar o efeito?

— escorpião

@whuber, ocasionalmente encontro situações funcionalmente semelhantes nas quais o analista simplesmente divide a amostra em dois grupos, usa o mesmo conjunto de variáveis independentes para os dois grupos e apenas compara qualitativamente os coeficientes. Há alguma vantagem dessa situação que acabei de descrever sobre essa formulação do uso de efeitos de interação?

— Andy W

@ Andy Sem nenhuma intenção de parecer crítico ou depreciativo, a única vantagem que posso pensar no método qualitativo é que ele não exige do entendimento ou da competência do analista: isso o torna acessível a mais pessoas. A abordagem qualitativa está repleta de dificuldades. Por exemplo, pode haver grandes diferenças aparentes entre as pistas e as interceptações apenas por acaso. Uma avaliação qualitativa apenas dos coeficientes não será capaz de distinguir essa situação dos efeitos reais.

— whuber

@whuber, meu pensamento inicial era o mesmo e recentemente dei a mesma sugestão a um colega que ignorou a sugestão por uma questão de simplicidade (como você mencionou). Eu pensei que talvez o comentário sobre a suposição de que as variações de erro sejam iguais para ambos os sexos possa tornar a abordagem dos dois modelos mais apropriada, dado que a suposição é violada.

— Andy W

@ Andy Sim, mas a possibilidade de diferentes variações não aumenta o valor de uma comparação não qualitativa. Em vez disso, exigiria uma comparação quantitativa mais diferenciada das estimativas de parâmetros. Por exemplo, como uma aproximação bruta (mas informativa), pode-se executar uma variante de um teste t CABF ou Satterthwaite com base nas variações estimadas de erro e em seus graus de liberdade. Mesmo o exame visual de um gráfico de dispersão bem construído seria fácil e muito mais informativo do que simplesmente comparar os coeficientes de regressão.

— whuber

-1

Eu acho que moderar uma variável de agrupamento funcionaria igualmente bem ao comparar coeficientes de regressão entre ondas independentes de dados transversais (por exemplo, ano1, ano2 e ano3 como grupo1 grupo2 e grupo3)?

— castanha
fonte