E se a interação eliminar meus efeitos diretos na regressão?

25

Em uma regressão, o termo de interação apaga os dois efeitos diretos relacionados. Abandono a interação ou relato o resultado? A interação não fazia parte da hipótese original.

regression interaction

— Jen
fonte

6

provavelmente você poderia obter uma resposta melhor se fornecesse mais detalhes sobre seu projeto experimental, pergunta de pesquisa e modelo estatístico.

— David LeBauer

Eu tenho dados da pesquisa, v1 e v2 preveem o resultado, como eu esperava; no entanto, a interação entre v1 (dicotômica) e v2 (5 grupos) não é significativa - e (minha pergunta) faz com que meus efeitos diretos v1 e v2 também não sejam significativos. Não consigo encontrar um exemplo sobre isso na literatura.

— 21410 Jen

Se a interação da v1: v2 não for significativa, você precisará incluí-la no modelo?

— Christopher Aden

Talvez essa pergunta seja relevante? stats.stackexchange.com/questions/5184/…

— Glen

Uma outra possibilidade é de desordenamento paradoxal: Exemplo 1: epm.sagepub.com/content/56/3/430.abstract Exemplo 2: optimalprediction.com/files/pdf/V1A19.pdf

— user31256

24

Eu acho que este é complicado; como você sugere, há "risco moral" aqui: se você não tivesse olhado para a interação, seria livre e claro, mas agora que você tem uma suspeita de dragagem de dados, se você descartá-la.

A chave provavelmente é uma mudança no significado de seus efeitos quando você passa do modelo de efeitos principais apenas para o modelo de interação. O que você obtém dos "efeitos principais" depende muito de como seus tratamentos e contrastes são codificados. Em R, o padrão é o tratamento que contrasta com os primeiros níveis dos fatores (aqueles com os primeiros nomes em ordem alfabética, a menos que você tenha se esforçado para codificá-los de maneira diferente) como os níveis da linha de base.

Diga (por simplicidade) que você tem dois níveis, 'controle' e 'trt', para cada fator. Sem a interação, o significado do parâmetro 'v1.trt' (assumindo que o tratamento contrasta como o padrão em R) é "diferença média entre o grupo 'v1.control' e 'v1.trt'"; o significado do parâmetro 'v2.trt' é "diferença média entre 'v2.control' e 'v2.trt'".

Com a interação, 'v1.trt' é a diferença média entre 'v1.control' e 'v1.trt' no grupo 'v2.control' , e da mesma forma 'v2.trt' é a diferença média entre os grupos v2 no grupo 'v1.control'. Portanto, se você tiver efeitos de tratamento razoavelmente pequenos em cada um dos grupos de controle, mas um grande efeito nos grupos de tratamento, poderá ver facilmente o que está vendo.

A única maneira de ver isso acontecendo sem um termo de interação significativo, no entanto, é se todos os efeitos forem razoavelmente fracos (de modo que o que você realmente quer dizer com "o efeito desapareceu" é que você passou de p = 0,06 para p = 0,04, através da linha de significado mágico).

Outra possibilidade é que você esteja 'consumindo muitos graus de liberdade' - ou seja, as estimativas dos parâmetros não mudam muito, mas o termo de erro residual é suficientemente inflado ao se estimar outros 4 [= (2- 1) * (5-1)] parâmetros em que seus termos significativos se tornam não significativos. Novamente, eu esperaria isso apenas com um pequeno conjunto de dados / efeitos relativamente fracos.

Uma solução possível é avançar para somar contrastes, embora isso também seja delicado - você deve estar convencido de que 'efeito médio' é significativo no seu caso. O melhor é plotar seus dados, examinar os coeficientes e entender o que está acontecendo em termos dos parâmetros estimados.

Espero que ajude.

— Ben Bolker
fonte

4

Não há risco moral. O cálculo dos principais efeitos com a interação incluída é bem diferente do cálculo sem ele. Você precisa fazer o modelo aditivo para relatar os principais efeitos e, em qualquer caso, incluir a interação em um modelo separado. Você ignora os principais efeitos no modelo que inclui a interação porque não são realmente efeitos principais, são efeitos em níveis específicos dos outros preditores (incluindo a interação).

— John

John: alguém, por essa lógica, também ignoraria o termo de interação em um modelo que avalia um efeito quadrático de interação / moderação (isto é, incluindo (1) efeitos principais, (2) interação entre esses efeitos principais e (3) um termo quadrático para um dos efeitos principais e um efeito de interação curvilínea (moderação))?

— Bento

11

Você tem certeza de que as variáveis foram expressas adequadamente? Considere duas variáveis independentes e . A declaração do problema afirma que você está tendo um bom ajuste no formulário $X_1$ $X_2$

Y = β_{0 0} + β_{12} X_{1 1} X_{2} + ϵ

$Y = \beta_0 + \beta_{12} X_1 X_2 + \epsilon$

Se houver alguma evidência de que a variação dos resíduos aumenta com , um modelo melhor usa erro multiplicativo, do qual uma forma é $Y$

Y = β_{0 0} + (β_{12} X_{1 1} X_{2}) δ

$Y = \beta_0 + \left( \beta_{12} X_1 X_2 \right) \delta$

Isso pode ser reescrito

registro (Y - β_{0 0}) = registro (β_{12}) + registro (X_{1 1}) + registro (X_{2}) + registro (δ);

$\log(Y - \beta_0) = \log(\beta_{12}) + \log(X_1) + \log(X_2) + \log(\delta);$

isto é, se você expressar novamente suas variáveis no formato

\begin{aligned} η = & registro (Y - β_{0 0}) \\ ξ_{1 1} = & registro (X_{1 1}) \\ ξ_{2} = & registro (X_{2}) \\ ζ = & registro (δ) \sim N (0 0, σ^{2}) \end{aligned}

$\eqalign{ \eta =& \log(Y - \beta_0) \cr \xi_1 =& \log(X_1)\cr \xi_2 =& \log(X_2)\cr \zeta =& \log(\delta) \sim N(0, \sigma^2) }$

então o modelo é linear e provavelmente possui resíduos homoscedásticos:

η = γ_{0 0} + γ_{1 1} ξ_{1 1} + γ_{2} ξ_{2} + ζ,

$\eta = \gamma_0 + \gamma_1 \xi_1 + \gamma_2 \xi_2 + \zeta,$

e pode acontecer que e estejam próximos de 1. $\gamma_1$ $\gamma_2$

O valor de pode ser descoberto através de métodos padrão de análise exploratória de dados ou, às vezes, é indicado pela natureza da variável. (Por exemplo, pode ser um valor mínimo teórico atingível por ). $\beta_0$ $Y$

Como alternativa, suponha que seja positivo e considerável (dentro do contexto dos dados), mas seja inconseqüentemente pequeno. Em seguida, o ajuste original pode ser reexpresso como $\beta_0$ $\sqrt{\beta_0}$

Y = (θ_{1 1} + X_{1 1}) (θ_{2} + X_{2}) + ϵ

$Y = (\theta_1 + X_1) (\theta_2 + X_2) + \epsilon$

onde e e são pequenos. Aqui, presume-se que os termos cruzados ausentes e sejam pequenos o suficiente para serem incluídos no termo de erro . Novamente, assumir um erro multiplicativo e obter logaritmos fornece um modelo com apenas efeitos diretos e sem interação. $\theta_1 \theta_2 = \beta_0$ $\theta_1$ $\theta_2$ $\theta_1 X_2$ $\theta_2 X_1$ $\epsilon$

Essa análise mostra como é possível - mesmo em algumas aplicações - ter um modelo no qual os únicos efeitos parecem ser interações. Isso ocorre quando as variáveis (independentes, dependentes ou ambas) são apresentadas a você de forma inadequada e seus logaritmos são um alvo mais eficaz para modelagem. As distribuições das variáveis e dos resíduos iniciais fornecem as pistas necessárias para determinar se este pode ser o caso: distribuições distorcidas das variáveis e heterocedasticidade dos resíduos (especificamente, tendo variações aproximadamente proporcionais aos valores previstos) são os indicadores.

— whuber
fonte

Hummm. Tudo isso parece plausível, mas mais complexo que minha solução (os comentários sobre a pergunta original sugerem que os preditores são categóricos). Mas, como sempre, a resposta é "veja os dados" (ou os resíduos).

— Ben Bolker

11

@Ben concordo, mas não entendo de onde vem a percepção de "mais complexo", porque a análise de distribuições univariadas e a análise post-hoc de resíduos são essenciais em qualquer exercício de regressão. O único trabalho extra necessário aqui é pensar no significado dessas análises.

— whuber

11

Talvez por "mais complexo" eu apenas queira dizer "Na minha experiência, vi os problemas a que me referi na minha resposta (codificação por contraste) surgem com mais frequência do que aqueles a que você se referiu (não-aditividade)" - mas isso é realmente um declaração sobre os tipos de dados / pessoas com quem trabalho e não sobre o mundo.

— Ben Bolker

5

Em uma regressão múltipla regular com duas variáveis preditivas quantitativas, incluindo sua interação, significa apenas incluir seu produto de observação como uma variável preditora adicional: $Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 (X_1 \cdot X_2) = (b_0 + b_2 X_2) + (b_1 + b_3 X_2) X_1$

Isso geralmente apresenta alta multicolinearidade, já que o produto se correlaciona fortemente com as duas variáveis originais. Com a multicolinearidade, as estimativas de parâmetros individuais dependem fortemente de quais outras variáveis são consideradas - como no seu caso. Como contramedida, centralizar as variáveis geralmente reduz a multicolinearidade quando a interação é considerada.

Não sei se isso se aplica diretamente ao seu caso, pois você parece ter preditores categóricos, mas usa o termo "regressão" em vez de "ANOVA". É claro que o último caso é essencialmente o mesmo modelo, mas somente depois de escolher o esquema de codificação de contraste, como Ben explicou.

— caracal
fonte

5

Isso pode ser um problema de interpretação, um mal-entendido sobre o que realmente é o chamado coeficiente de "efeito direto".

Nos modelos de regressão com variáveis preditivas contínuas e sem termos de interação - ou seja, sem termos construídos como o produto de outros termos - o coeficiente de cada variável é a inclinação da superfície de regressão na direção dessa variável. É constante, independentemente dos valores das variáveis, e é obviamente uma medida do efeito dessa variável.

Nos modelos com interações - isto é, com termos construídos como produtos de outros termos - essa interpretação pode ser feita sem qualificação adicional apenas para variáveis que não estão envolvidas em nenhuma interação. O coeficiente de uma variável que está envolvido em interacções é a inclinação da superfície de regressão no sentido de que a variável quando os valores de todas as variáveis que interagem com a variável em questão são iguais a zero , e o teste de significância do coeficiente refere-se a declive da superfície de regressão apenas nessa região do espaço preditivo. Como não há exigência de que realmente haja dados nessa região do espaço, o aparente coeficiente de efeito direto pode ter pouca semelhança com a inclinação da superfície de regressão na região do espaço do preditor onde os dados foram realmente observados. Não existe um "efeito direto" verdadeiro nesses casos; o melhor substituto é provavelmente o "efeito médio": a inclinação da superfície de regressão na direção da variável em questão, tomada em cada ponto de dados e calculada a média de todos os pontos de dados. Para obter mais informações, consulte Por que as variáveis independentes centralizadas podem alterar os principais efeitos com moderação?

— Ray Koopman
fonte