Até o momento, removi variáveis colineares como parte do processo de preparação de dados, observando as tabelas de correlação e eliminando as variáveis que estão acima de um determinado limite. Existe uma maneira mais aceita de fazer isso? Além disso, estou ciente de que apenas analisar a correlação entre duas variáveis por vez não é o ideal, medições como o VIF levam em consideração a correlação potencial entre várias variáveis. Como alguém escolheria sistematicamente combinações de variáveis que não exibem multicolinearidade?
Eu tenho meus dados dentro de um quadro de dados do pandas e estou usando os modelos do sklearn.