Eu estava lendo o capítulo de regressão múltipla de Análise de dados e gráficos usando R: uma abordagem baseada em exemplos e fiquei um pouco confuso ao descobrir que recomenda verificar relações lineares entre variáveis explicativas (usando um gráfico de dispersão) e, caso não exista ' t qualquer, transformando-os para que eles não se tornam mais linearmente relacionadas. Aqui estão alguns trechos disso:
6.3 Uma estratégia para ajustar vários modelos de regressão
(...)
Examine a matriz do gráfico de dispersão envolvendo todas as variáveis explicativas. (Incluir a variável dependente é, neste momento, opcional. ) Procure primeiro evidências de não linearidade nos gráficos de variáveis explicativas entre si.
(...)
Este ponto identifica uma estratégia de busca de modelos - procure modelos nos quais as relações de regressão entre variáveis explicativas sigam uma forma linear "simples" . Assim, se alguns gráficos em pares mostrarem evidências de não linearidade, considere o uso de transformações para fornecer relações mais quase lineares . Embora possa não ser necessariamente possível, seguindo essa estratégia, modelar adequadamente a relação de regressão, essa é uma boa estratégia, pelas razões indicadas abaixo, a seguir no início da pesquisa.
(...)
Se os relacionamentos entre as variáveis explicativas forem aproximadamente lineares, talvez após a transformação, será possível interpretar com confiança os gráficos das variáveis preditoras contra a variável resposta.
(...)
Pode não ser possível encontrar transformações de uma ou mais das variáveis explicativas que garantem que os relacionamentos (em pares) mostrados nos painéis pareçam lineares. Isso pode criar problemas para a interpretação dos gráficos de diagnóstico para qualquer equação de regressão ajustada e para a interpretação dos coeficientes na equação ajustada. Veja Cook e Weisberg (1999).
Não deveria me preocupar com relacionamentos lineares entre variáveis dependentes (por causa do risco de multicolinearidade) em vez de persegui-las ativamente? Quais são as vantagens de ter variáveis aproximadamente linearmente relacionadas?
Os autores abordam a questão da multicolinearidade mais adiante neste capítulo, mas essas recomendações parecem estar em desacordo com a prevenção da multicolinearidade.