Eu gostaria de sugerir que esse fenômeno (de um teste geral não significativo, apesar de uma variável individual significativa) possa ser entendido como uma espécie de "efeito mascarado" agregado e que, embora concebivelmente possa surgir de variáveis explicativas multicolineares, ele não precisa isso mesmo. Também não é devido a vários ajustes de comparação. Assim, esta resposta está adicionando algumas qualificações às respostas que já apareceram, o que sugere, pelo contrário, que a multicolinearidade ou as comparações múltiplas devem ser encaradas como os culpados.
Para estabelecer a plausibilidade dessas asserções, vamos gerar uma coleção de variáveis perfeitamente ortogonais - tão não colinear quanto possível - e uma variável dependente que seja explicitamente determinada exclusivamente pelo primeiro dos explicandos (mais uma boa quantidade de erro aleatório independente de tudo o mais). Em R
isso pode ser feito (reprodutível, se quiser experiência) como
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
Não é importante que as variáveis explicativas sejam binárias; o que importa é sua ortogonalidade, que podemos verificar para garantir que o código esteja funcionando conforme o esperado, o que pode ser feito inspecionando suas correlações. De fato, a matriz de correlação é interessante : os pequenos coeficientes sugerem y
pouco a ver com qualquer uma das variáveis, exceto a primeira (que é por design) e os zeros fora da diagonal confirmam a ortogonalidade das variáveis explicativas:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
Vamos executar uma série de regressões , usando apenas a primeira variável, depois as duas primeiras e assim por diante. Por questões de concisão e facilidade de comparação, em cada uma mostro apenas a linha da primeira variável e do teste F geral:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
Veja como (a) a significância da primeira variável mal muda, (a ') a primeira variável permanece significativa (p <0,05), mesmo ao ajustar várias comparações ( por exemplo , aplique Bonferroni multiplicando o valor p nominal pelo número de variáveis explicativas), (b) o coeficiente da primeira variável mal muda, mas (c) a significância geral cresce exponencialmente, inflando rapidamente para um nível não significativo.
Interpreto isso como demonstrando que a inclusão de variáveis explicativas que são amplamente independentes da variável dependente pode "mascarar" o valor p geral da regressão. Quando as novas variáveis são ortogonais às existentes e à variável dependente, elas não alteram os valores de p individuais. (As pequenas mudanças vistas aqui são porque o erro aleatório adicionado y
é, por acidente, ligeiramente correlacionado com todas as outras variáveis.) Uma lição a tirar disso é que a parcimônia é valiosa : o uso de poucas variáveis necessárias pode fortalecer a significância de os resultados.
Eu estou não dizer que esta é necessariamente acontecendo para o conjunto de dados na pergunta, sobre o qual foi divulgado pouco. Mas o conhecimento de que esse efeito de mascaramento pode acontecer deve informar nossa interpretação dos resultados, bem como nossas estratégias para seleção de variáveis e construção de modelos.