Há muito sobre colinearidade em relação a preditores contínuos, mas não tanto que eu possa encontrar em preditores categóricos. Eu tenho dados deste tipo ilustrados abaixo.
O primeiro fator é uma variável genética (contagem de alelos), o segundo fator é uma categoria de doença. Claramente, os genes precedem a doença e são um fator para mostrar sintomas que levam ao diagnóstico. No entanto, uma análise regular usando somas de quadrados tipo II ou III, como seria comumente feito em psicologia com o SPSS, perde o efeito. Uma análise de somas de quadrados do tipo I é selecionada quando a ordem apropriada é inserida porque depende da ordem. Além disso, é provável que haja componentes extras no processo da doença que não estejam relacionados ao gene que não estão bem identificados com os tipos II ou III, veja anova (lm1) abaixo vs lm2 ou Anova.
Dados de exemplo:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 com SS tipo I para mim parece a maneira apropriada de analisar os dados, dada a teoria dos antecedentes. Minha suposição está correta?
- Estou acostumado a desenhos ortogonais explicitamente manipulados, onde esses problemas geralmente não surgem. É difícil convencer os revisores de que este é o melhor processo (assumindo que o ponto 1 esteja correto) no contexto de um campo centralizado no SPSS?
- E o que relatar na seção de estatísticas? Alguma análise extra, ou comentários que devem entrar?