Antes de tudo, percebo que a regressão múltipla não fornece realmente inferências "causais" sobre os dados. Deixe-me explicar meu caso atual:
Eu tenho quatro variáveis independentes que espero (mas não tenho certeza) envolvidas na condução do que estou medindo. Eu queria usar a regressão múltipla para ver quanto cada uma dessas variáveis está contribuindo para a minha variável dependente e o fiz. Supostamente, a variável "Número quatro" está influenciando muito fortemente minha medida de resultado (peso beta próximo de 0,7).
No entanto, me disseram que isso não é suficiente, porque algumas das minhas variáveis "independentes" podem de fato estar correlacionadas entre si. Nesse caso, eu poderia pensar que "Variável quatro" está dirigindo minha variável dependente, quando realmente três e quatro poderiam estar contribuindo igualmente. Parece correto, mas como sou novo nisso, não tenho certeza.
Como posso evitar sistematicamente esse problema no futuro? Quais procedimentos específicos você recomendaria ao usar a regressão múltipla para garantir que seus dados "independentes" ainda não contenham correlações ocultas?
Edit: Os dados em si são uma série de modelos de rede (gráfico) de um estado neurológico específico. Estou medindo o "coeficiente de cluster" que descreve a topologia de cada rede como um todo (variável dependente aqui) e depois verificando se as conectividades individuais de quatro nós na rede 100+ maior estão direcionando os valores globais de cluster (quatro independentes variáveis). No entanto, esses nós fazem parte de uma rede, portanto, por definição, é possível que estejam correlacionados até certo ponto.