Estou tentando classificar mensagens em diferentes categorias usando um SVM. Eu compilei uma lista de palavras / símbolos desejáveis do conjunto de treinamento.
Para cada vetor, que representa uma mensagem, defino a linha correspondente como 1
se a palavra estiver presente:
"corpus" é: [mary, pequena, cordeiro, estrela, brilho]
primeira mensagem: "mary teve um cordeirinho" -> [1 1 1 0 0]
segunda mensagem: "twinkle little star" -> [0 1 0 1 1]
Acho que essa é uma configuração bastante comum com o SVM, mas minha pergunta é, com milhares de palavras no conjunto, e se houver apenas 1-2 palavras por mensagem que realmente aparecerem? A dependência linear do meu conjunto de vetores de treinamento afetará adversamente a capacidade do algoritmo de convergir?
flexmix
- no entanto, tenho "Learn R" no meu calendário há alguns anos!