Muitos algoritmos de aprendizado de máquina, por exemplo, redes neurais, esperam lidar com números. Portanto, quando você tem dados categóricos, precisa convertê-los. Por categórico, quero dizer, por exemplo:
Marcas de automóveis: Audi, BMW, Chevrolet ... IDs de usuários: 1, 25, 26, 28 ...
Mesmo que os IDs de usuários sejam números, eles são apenas rótulos e não significam nada em termos de continuidade, como idade ou soma de dinheiro.
Portanto, a abordagem básica parece usar vetores binários para codificar categorias:
Audi: 1, 0, 0 ... BMW: 0, 1, 0 ... Chevrolet: 0, 0, 1 ...
Tudo bem quando existem poucas categorias, mas além disso parece um pouco ineficiente. Por exemplo, quando você tem 10.000 IDs de usuário para codificar, são 10.000 recursos.
A questão é: existe uma maneira melhor? Talvez um envolvendo probabilidades?