De acordo com a documentação do objeto StandardScaler no scikit-learn:
Por exemplo, muitos elementos usados na função objetivo de um algoritmo de aprendizado (como o kernel RBF do Support Vector Machines ou os regularizadores L1 e L2 dos modelos lineares) assumem que todos os recursos estão centralizados em torno de 0 e têm variação na mesma ordem. Se um recurso tem uma variação que é ordens de magnitude maior que os outros, ele pode dominar a função objetivo e tornar o estimador incapaz de aprender com outros recursos corretamente, conforme o esperado.
Eu deveria escalar meus recursos antes da classificação. Existe alguma maneira fácil de mostrar por que devo fazer isso? Referências a artigos científicos seriam ainda melhores. Eu já encontrei um, mas provavelmente existem muitos outros.