(Supondo que você esteja falando sobre aprendizado supervisionado)
Recursos correlatos nem sempre pioram seu modelo, mas também nem sempre o aprimoram.
Há três razões principais pelas quais você remove os recursos correlatos:
- Torne o algoritmo de aprendizado mais rápido
Devido à maldição da dimensionalidade, menos recursos geralmente significam alta melhoria em termos de velocidade.
Se a velocidade não for um problema, talvez não remova esses recursos imediatamente (consulte o próximo ponto)
- Diminuir o viés prejudicial
A palavra-chave é prejudicial. Se você possui recursos correlatos, mas eles também estão correlacionados ao destino, você deseja mantê-los. Você pode visualizar os recursos como dicas para fazer um bom palpite; se você tiver duas dicas essencialmente iguais, mas são boas, talvez seja prudente mantê-las.
Alguns algoritmos como o Naive Bayes realmente se beneficiam diretamente dos recursos correlatos "positivos". E outros, como florestas aleatórias, podem se beneficiar indiretamente deles.
Imagine ter três recursos A, B e C. A e B estão altamente correlacionados com o destino e entre si, e C não é de todo. Se você experimentar um dos três recursos, terá 2/3 de chance de obter um recurso "bom", enquanto que, se você remover B, por exemplo, essa chance cairá para 1/2
Obviamente, se os recursos correlacionados não forem super informativos, o algoritmo pode não sofrer muito.
Portanto, moral da história, a remoção desses recursos pode ser necessária devido à velocidade, mas lembre-se de que você pode piorar seu algoritmo no processo. Além disso, alguns algoritmos, como as árvores de decisão, possuem seleção de recursos incorporada.
Uma boa maneira de lidar com isso é usar um método de invólucro para a seleção de recursos. Ele removerá recursos redundantes apenas se eles não contribuírem diretamente para o desempenho. Se forem úteis como em bayes ingênuos, serão mantidos. (Lembre-se de que os métodos do invólucro são caros e podem levar ao sobreajuste)
- Interpretabilidade do seu modelo
Se o seu modelo precisar ser interpretável, você poderá ser forçado a simplificá-lo. Lembre-se também de lembrar da navalha de Occam. Se o seu modelo não é "muito" pior com menos recursos, provavelmente você deve usar menos recursos.