Você está certo. O problema de múltiplas comparações existe em toda parte, mas, devido à maneira como é tipicamente ensinado, as pessoas pensam apenas que se trata de comparar muitos grupos entre si por meio de vários testes . Na realidade, existem muitos exemplos em que o problema das comparações múltiplas existe, mas onde não se parece com muitas comparações aos pares; por exemplo, se você tiver muitas variáveis contínuas e se perguntar se há alguma correlação, você terá um problema de múltiplas comparações (veja aqui: Veja e você encontrará uma correlação ). t
Outro exemplo é o que você cria. Se você executasse uma regressão múltipla com 20 variáveis e usasse como limite, esperaria que uma de suas variáveis fosse 'significativa' apenas por acaso, mesmo se todos os nulos fossem verdadeiros. O problema de múltiplas comparações simplesmente vem da matemática de executar muitas análises. Se todas as hipóteses nulas fossem verdadeiras e as variáveis fossem perfeitamente não correlacionadas, a probabilidade de não rejeitar falsamente nenhuma nula verdadeira seria (por exemplo, com , é ). α=.051 - ( 1 - α ) p p = 5 0,231−(1−α)pp=5.23
A primeira estratégia para mitigar isso é realizar um teste simultâneo do seu modelo. Se você estiver ajustando uma regressão OLS, a maioria dos softwares fornecerá um teste global como parte padrão de sua saída. Se você estiver executando um modelo linear generalizado, a maioria dos softwares fornecerá um teste análogo de razão de verossimilhança global. Este teste fornecerá alguma proteção contra a inflação de erros do tipo I devido ao problema de múltiplas comparações (cf., minha resposta aqui: Significância dos coeficientes na regressão linear: teste t significativo versus estatística F não significativa ). Um caso semelhante é quando você tem uma variável categórica que é representada por vários códigos fictícios; você não gostaria de interpretar aquelesFtt, mas eliminaria todos os códigos fictícios e executaria um teste de modelo aninhado.
Outra estratégia possível é usar um procedimento de ajuste alfa, como a correção de Bonferroni. Você deve perceber que isso reduzirá sua energia e também a taxa de erro tipo I da família. Se essa troca vale a pena é uma decisão que você deve fazer. (FWIW, normalmente não uso correções alfa em regressão múltipla.)
Em relação à questão de usar valores- para fazer a seleção de modelos, acho que essa é uma péssima idéia. Eu não mudaria de um modelo com 5 variáveis para um com apenas 2 porque os outros eram 'não significativos'. Quando as pessoas fazem isso, elas enviesam seu modelo. Pode ajudar você a ler minha resposta aqui: algoritmos para seleção automática de modelo para entender isso melhor. p
Em relação à sua atualização, não sugeriria que você avaliasse correlações univariadas primeiro para decidir quais variáveis usar no modelo final de regressão múltipla. Isso resultará em problemas de endogeneidade, a menos que as variáveis não estejam perfeitamente correlacionadas entre si. Eu discuti esse problema na minha resposta aqui: Estimando vez deb1x1+b2x2b1x1+b2x2+b3x3 .
No que diz respeito à questão de como lidar com análises com diferentes variáveis dependentes, se você deseja usar algum tipo de ajuste é baseado em como vê as análises entre si. A idéia tradicional é determinar se eles são considerados significativamente uma "família". Isso é discutido aqui: O que pode ser uma definição clara e prática para uma "família de hipóteses"? Você também pode ler este tópico: Métodos para prever várias variáveis dependentes .