Recentemente, aprendi que uma das maneiras de encontrar melhores soluções para problemas de ML é através da criação de recursos. Pode-se fazer isso, por exemplo, somando dois recursos.
Por exemplo, possuímos dois recursos "ataque" e "defesa" de algum tipo de herói. Em seguida, criamos um recurso adicional chamado "total", que é uma soma de "ataque" e "defesa". Agora, o que me parece estranho é que mesmo "ataques" e "defesas" difíceis estão quase perfeitamente correlacionados com "total", ainda obtemos informações úteis.
Qual é a matemática por trás disso? Ou eu estou raciocinando errado?
Além disso, isso não é um problema, para classificadores como kNN, que "total" será sempre maior que "ataque" ou "defesa"? Assim, mesmo após a padronização, teremos características que contêm valores de diferentes faixas?