Vários algoritmos populares de aprendizado de máquina, como regressão logística ou redes neurais, exigem que suas entradas sejam numéricas.
O que me interessa é como você faz esses algoritmos funcionarem em entradas não numéricas (como seqüências de caracteres curtas).
Como exemplo, digamos que estamos construindo um sistema de classificação de email (spam / não spam), em que um dos recursos de entrada é o endereço do remetente.
Para poder usar um algoritmo de aprendizado, precisamos representar o endereço do remetente como um número. Uma maneira é simplesmente numerar os remetentes 1..n. Nosso conjunto de treinamento pode ficar assim:
Isso não funcionará, no entanto, porque algoritmos como regressão logística ou redes neurais aprendem padrões nos dados de entrada, enquanto no nosso exemplo, a saída parece totalmente aleatória para o algoritmo. De fato, uma vez em uma aula universitária, tentamos treinar uma rede Neural em um conjunto de dados parecido com esse e a rede não conseguiu aprender nada (a curva de aprendizado era plana).
Você usaria regressão logística ou redes neurais neste exemplo? Se sim, de que maneira? Caso contrário, qual seria uma boa maneira de classificar os e-mails com base no endereço do remetente?
Uma resposta perfeita seria discutir o exemplo de classificação de email, bem como lidar com seqüências curtas no ML em geral.