Estou trabalhando em um projeto no R onde tenho cerca de 1200 e-mails de uma empresa, a maioria rotulada como classe ou classe, que são os tipos de solicitações. Cerca de 1000 e-mails são rotulados como classee 200 são rotulados como classe. Meu objetivo é usar o aprendizado supervisionado para criar um modelo que classifique novos e-mails.
Porém, depois de muito pré-processamento (análise, remoção de palavras-chave, etc.) e tentativa de algoritmos típicos (SVM, árvores de decisão etc.) em uma matriz de termos de documentos, minha matriz de confusão continha muitos falsos positivos e falsos negativos, mas apenas alguns falsos negativos com SVM.
Eu estou querendo saber como eu poderia melhorar meus resultados? Preciso usar oversampling ou representação de recurso de dois gramas? Eu acho que o problema é que os tópicos das duas categorias são muito próximos.