Em uma regressão, o termo de interação apaga os dois efeitos diretos relacionados. Abandono a interação ou relato o resultado? A interação não fazia parte da hipótese original.
Em uma regressão, o termo de interação apaga os dois efeitos diretos relacionados. Abandono a interação ou relato o resultado? A interação não fazia parte da hipótese original.
Respostas:
Eu acho que este é complicado; como você sugere, há "risco moral" aqui: se você não tivesse olhado para a interação, seria livre e claro, mas agora que você tem uma suspeita de dragagem de dados, se você descartá-la.
A chave provavelmente é uma mudança no significado de seus efeitos quando você passa do modelo de efeitos principais apenas para o modelo de interação. O que você obtém dos "efeitos principais" depende muito de como seus tratamentos e contrastes são codificados. Em R, o padrão é o tratamento que contrasta com os primeiros níveis dos fatores (aqueles com os primeiros nomes em ordem alfabética, a menos que você tenha se esforçado para codificá-los de maneira diferente) como os níveis da linha de base.
Diga (por simplicidade) que você tem dois níveis, 'controle' e 'trt', para cada fator. Sem a interação, o significado do parâmetro 'v1.trt' (assumindo que o tratamento contrasta como o padrão em R) é "diferença média entre o grupo 'v1.control' e 'v1.trt'"; o significado do parâmetro 'v2.trt' é "diferença média entre 'v2.control' e 'v2.trt'".
Com a interação, 'v1.trt' é a diferença média entre 'v1.control' e 'v1.trt' no grupo 'v2.control' , e da mesma forma 'v2.trt' é a diferença média entre os grupos v2 no grupo 'v1.control'. Portanto, se você tiver efeitos de tratamento razoavelmente pequenos em cada um dos grupos de controle, mas um grande efeito nos grupos de tratamento, poderá ver facilmente o que está vendo.
A única maneira de ver isso acontecendo sem um termo de interação significativo, no entanto, é se todos os efeitos forem razoavelmente fracos (de modo que o que você realmente quer dizer com "o efeito desapareceu" é que você passou de p = 0,06 para p = 0,04, através da linha de significado mágico).
Outra possibilidade é que você esteja 'consumindo muitos graus de liberdade' - ou seja, as estimativas dos parâmetros não mudam muito, mas o termo de erro residual é suficientemente inflado ao se estimar outros 4 [= (2- 1) * (5-1)] parâmetros em que seus termos significativos se tornam não significativos. Novamente, eu esperaria isso apenas com um pequeno conjunto de dados / efeitos relativamente fracos.
Uma solução possível é avançar para somar contrastes, embora isso também seja delicado - você deve estar convencido de que 'efeito médio' é significativo no seu caso. O melhor é plotar seus dados, examinar os coeficientes e entender o que está acontecendo em termos dos parâmetros estimados.
Espero que ajude.
Você tem certeza de que as variáveis foram expressas adequadamente? Considere duas variáveis independentes e . A declaração do problema afirma que você está tendo um bom ajuste no formulário
Se houver alguma evidência de que a variação dos resíduos aumenta com , um modelo melhor usa erro multiplicativo, do qual uma forma é
Isso pode ser reescrito
isto é, se você expressar novamente suas variáveis no formato
então o modelo é linear e provavelmente possui resíduos homoscedásticos:
e pode acontecer que e estejam próximos de 1.
O valor de pode ser descoberto através de métodos padrão de análise exploratória de dados ou, às vezes, é indicado pela natureza da variável. (Por exemplo, pode ser um valor mínimo teórico atingível por ).
Como alternativa, suponha que seja positivo e considerável (dentro do contexto dos dados), mas seja inconseqüentemente pequeno. Em seguida, o ajuste original pode ser reexpresso como
onde e e são pequenos. Aqui, presume-se que os termos cruzados ausentes e sejam pequenos o suficiente para serem incluídos no termo de erro . Novamente, assumir um erro multiplicativo e obter logaritmos fornece um modelo com apenas efeitos diretos e sem interação.
Essa análise mostra como é possível - mesmo em algumas aplicações - ter um modelo no qual os únicos efeitos parecem ser interações. Isso ocorre quando as variáveis (independentes, dependentes ou ambas) são apresentadas a você de forma inadequada e seus logaritmos são um alvo mais eficaz para modelagem. As distribuições das variáveis e dos resíduos iniciais fornecem as pistas necessárias para determinar se este pode ser o caso: distribuições distorcidas das variáveis e heterocedasticidade dos resíduos (especificamente, tendo variações aproximadamente proporcionais aos valores previstos) são os indicadores.
Em uma regressão múltipla regular com duas variáveis preditivas quantitativas, incluindo sua interação, significa apenas incluir seu produto de observação como uma variável preditora adicional:
Isso geralmente apresenta alta multicolinearidade, já que o produto se correlaciona fortemente com as duas variáveis originais. Com a multicolinearidade, as estimativas de parâmetros individuais dependem fortemente de quais outras variáveis são consideradas - como no seu caso. Como contramedida, centralizar as variáveis geralmente reduz a multicolinearidade quando a interação é considerada.
Não sei se isso se aplica diretamente ao seu caso, pois você parece ter preditores categóricos, mas usa o termo "regressão" em vez de "ANOVA". É claro que o último caso é essencialmente o mesmo modelo, mas somente depois de escolher o esquema de codificação de contraste, como Ben explicou.
Isso pode ser um problema de interpretação, um mal-entendido sobre o que realmente é o chamado coeficiente de "efeito direto".
Nos modelos de regressão com variáveis preditivas contínuas e sem termos de interação - ou seja, sem termos construídos como o produto de outros termos - o coeficiente de cada variável é a inclinação da superfície de regressão na direção dessa variável. É constante, independentemente dos valores das variáveis, e é obviamente uma medida do efeito dessa variável.
Nos modelos com interações - isto é, com termos construídos como produtos de outros termos - essa interpretação pode ser feita sem qualificação adicional apenas para variáveis que não estão envolvidas em nenhuma interação. O coeficiente de uma variável que está envolvido em interacções é a inclinação da superfície de regressão no sentido de que a variável quando os valores de todas as variáveis que interagem com a variável em questão são iguais a zero , e o teste de significância do coeficiente refere-se a declive da superfície de regressão apenas nessa região do espaço preditivo. Como não há exigência de que realmente haja dados nessa região do espaço, o aparente coeficiente de efeito direto pode ter pouca semelhança com a inclinação da superfície de regressão na região do espaço do preditor onde os dados foram realmente observados. Não existe um "efeito direto" verdadeiro nesses casos; o melhor substituto é provavelmente o "efeito médio": a inclinação da superfície de regressão na direção da variável em questão, tomada em cada ponto de dados e calculada a média de todos os pontos de dados. Para obter mais informações, consulte Por que as variáveis independentes centralizadas podem alterar os principais efeitos com moderação?