Considerar multicolinearias é importante na análise de regressão porque, em extremos , incide diretamente sobre se seus coeficientes são ou não identificados exclusivamente nos dados. Em casos menos graves, ainda pode mexer com suas estimativas de coeficiente; pequenas mudanças nos dados utilizados para a estimativa podem causar oscilações selvagens nos coeficientes estimados. Isso pode ser problemático do ponto de vista inferencial: se duas variáveis são altamente correlacionadas, os aumentos em uma podem ser compensados por diminuições na outra, de modo que o efeito combinado é negar uma à outra. Com mais de duas variáveis, o efeito pode ser ainda mais sutil, mas se as previsões forem estáveis, isso geralmente é suficiente para aplicativos de aprendizado de máquina.
Considere por que regularizamos em um contexto de regressão: precisamos restringir o modelo a ser muito flexível. A aplicação da quantidade correta de regularização aumentará ligeiramente o viés para uma maior redução na variação. O exemplo clássico disso é adicionar termos polinomiais e efeitos de interação a uma regressão: no caso degenerado, a equação de previsão interpolará pontos de dados, mas provavelmente será terrível ao tentar prever os valores de pontos de dados não vistos. A redução desses coeficientes provavelmente minimizará ou eliminará completamente alguns desses coeficientes e melhorará a generalização.
Uma floresta aleatória, no entanto, pode ser vista como tendo um parâmetro de regularização através do número de variáveis amostradas em cada divisão: você divide melhor quanto maior, maior mtry
(mais recursos para escolher; algumas são melhores que outras), mas isso também torna cada árvore mais altamente correlacionada entre si, mitigando um pouco o efeito diversificador da estimativa de várias árvores em primeiro lugar. Esse dilema obriga a encontrar o equilíbrio certo, geralmente alcançado usando a validação cruzada. É importante ressaltar que, ao contrário de uma análise de regressão, nenhuma parte do modelo de floresta aleatória é prejudicada por variáveis altamente colineares: mesmo que duas das variáveis forneçam a mesma pureza do nó filho, você pode simplesmente escolher uma sem diminuir a qualidade do resultado.
Da mesma forma, para algo como um SVM, você pode incluir mais preditores do que recursos, porque o truque do kernel permite operar exclusivamente no produto interno desses vetores de recursos. Ter mais recursos do que observações seria um problema nas regressões, mas o truque do kernel significa que apenas estimamos um coeficiente para cada exemplo, enquanto o parâmetro de regularização reduz a flexibilidade da solução - o que é decididamente uma coisa boa, pois estimar parâmetros paraCNNas observações de maneira irrestrita sempre produzirão um modelo perfeito para os dados de teste - e fazemos um círculo completo, de volta ao cenário de regressão cume / LASSO / rede elástica, onde temos a flexibilidade do modelo restrita como uma verificação contra um modelo excessivamente otimista. Uma análise das condições KKT do problema SVM revela que a solução SVM é única, portanto, não precisamos nos preocupar com os problemas de identificação que surgiram no caso de regressão.
Por fim, considere o impacto real da multicolinearidade. Ele não altera o poder preditivo do modelo (pelo menos nos dados de treinamento), mas estraga nossas estimativas de coeficiente. Na maioria dos aplicativos do ML, que não se preocupam com coeficientes próprios, apenas a perda das previsões do nosso modelo. Portanto, nesse sentido, verificar o VIF na verdade não responde a uma pergunta conseqüente. (Mas se uma leve alteração nos dados causar uma enorme flutuação nos coeficientes [um sintoma clássico da multicolinearidade], também poderá alterar as previsões, caso em que nos importamos - mas tudo isso [esperamos!] É caracterizado quando execute a validação cruzada, que faz parte do processo de modelagem.) Uma regressão é mais facilmente interpretada, mas a interpretação pode não ser o objetivo mais importante para algumas tarefas.