Em uma regressão linear múltipla com regressores altamente correlacionados, qual é a melhor estratégia a ser usada? É uma abordagem legítima adicionar o produto de todos os regressores correlacionados?
Em uma regressão linear múltipla com regressores altamente correlacionados, qual é a melhor estratégia a ser usada? É uma abordagem legítima adicionar o produto de todos os regressores correlacionados?
Respostas:
Os componentes principais fazem muito sentido ... matematicamente. No entanto, eu seria cauteloso em simplesmente usar algum truque matemático nesse caso e torcer para que eu não precisasse pensar no meu problema.
Eu recomendo pensar um pouco sobre que tipo de preditores tenho, qual é a variável independente, por que meus preditores estão correlacionados, se alguns dos meus preditores estão realmente medindo a mesma realidade subjacente (se sim, se posso apenas trabalhar com um medição única e qual dos meus preditores seria melhor para isso), para o que estou fazendo a análise - se não estou interessado em inferência, apenas em previsão, então eu poderia realmente deixar as coisas como estão, desde que sejam futuras valores preditores são semelhantes aos anteriores.
Você pode usar componentes principais ou regressão de crista para lidar com esse problema. Por outro lado, se você tiver duas variáveis que são correlacionadas o suficiente para causar problemas com a estimativa de parâmetros, você certamente poderá descartar uma das duas sem perder muito em termos de previsão - porque as duas variáveis carregam a mesma informação . Obviamente, isso só funciona quando o problema é devido a dois independentes altamente correlacionados. Quando o problema envolve mais de duas variáveis juntas quase colineares (duas das quais podem ter apenas correlações moderadas), você provavelmente precisará de um dos outros métodos.
Aqui está outro pensamento inspirado na resposta de Stephan :
Se alguns de seus regressores correlacionados estiverem significativamente relacionados (por exemplo, são diferentes medidas de inteligência, como verbais, matemáticas etc.), você poderá criar uma única variável que mede a mesma variável usando uma das seguintes técnicas:
Soma os regressores (apropriado se os regressores forem componentes de um todo, por exemplo, QI verbal + QI matemático = QI geral)
Média dos regressores (apropriado se os regressores estiverem medindo a mesma construção subjacente, por exemplo, tamanho do sapato esquerdo, tamanho do sapato direito para medir o comprimento dos pés)
Análise fatorial (para contabilizar erros nas medições e extrair um fator latente)
Você pode descartar todos os regressores correlacionados e substituí-los pela variável que emerge da análise acima.
Eu estava prestes a dizer a mesma coisa que Stephan Kolassa acima (então votei na sua resposta). Eu apenas acrescentaria que, às vezes, a multicolinearidade pode ser devida ao uso de variáveis extensas, todas altamente correlacionadas com alguma medida de tamanho, e as coisas podem ser melhoradas usando variáveis intensivas, ou seja, dividindo tudo por alguma medida de tamanho. Por exemplo, se suas unidades são países, você pode dividir por população, área ou PNB, dependendo do contexto.
Ah - e responder à segunda parte da pergunta original: não consigo pensar em nenhuma situação ao adicionar o produto de todos os regressores correlacionados seria uma boa idéia. Como isso ajudaria? O que isso significaria?
Não sou especialista nisso, mas meu primeiro pensamento seria executar uma análise de componente principal nas variáveis preditivas e, em seguida, usar os componentes principais resultantes para prever sua variável dependente.
Este não é um remédio, mas definitivamente um passo na direção certa.