Alguém pode dar uma lista de quais algoritmos exigiriam que os recursos categóricos fossem codificados com um código quente e quais não?
AFAIU, tem a ver mais com os dados particulares , menos com o algoritmo específico . Especificamente, depende se há alguma ordem significativa nas categorias ou não.
Considere dois casos. No primeiro você tem as categorias ruim, meh, bom , e no segundo você tem maçã, laranja, pêra . Há uma ordem natural no primeiro caso, porque o meh provavelmente está entre ruim e bom , mas provavelmente nada semelhante acontece em maçã, laranja, pêra .
Se você evitar a codificação one-hot no primeiro caso, estará "perdendo" as informações sobre o pedido. Se você usar a codificação one-hot para o segundo caso, estará atribuindo alguma ordem às categorias que não são naturalmente verdadeiras.
Faço isso sempre que o algoritmo usa uma métrica de distância para calcular a similaridade.
Por quê? Suponha que um dos recursos seja um categórico ruim, meh, bom , e você tenha três instâncias, 1, 2 e 3, onde eles são idênticos, exceto que 1 é ruim , 2 é meh e 3 é bom. Você provavelmente deseja expressar para o algoritmo que 1 é mais semelhante a 2 do que a 3.