Estou tentando acelerar a resposta com R. Eu finalmente quero usar as bibliotecas R para fazer a classificação de texto. Fiquei me perguntando quais são as experiências das pessoas com relação à escalabilidade de R quando se trata de fazer a classificação de texto.
É provável que eu ocorra com dados de alta dimensão (~ 300k dimensões). Eu estou olhando para usar SVM e floresta aleatória em particular como algoritmos de classificação.
As bibliotecas R seriam dimensionadas para o tamanho do meu problema?
Obrigado.
EDIÇÃO 1: Apenas para esclarecer, é provável que meu conjunto de dados tenha de 1000 a 3000 linhas (talvez um pouco mais) e 10 classes.
EDIÇÃO 2: Como sou muito novo em R, solicitarei que os pôsteres sejam mais específicos sempre que possível. Por exemplo, se você estiver sugerindo um fluxo de trabalho / pipeline, mencione as bibliotecas R envolvidas em cada etapa, se possível. Alguns indicadores adicionais (para exemplos, código de exemplo etc.) estariam no topo do bolo.
EDIÇÃO 3: Em primeiro lugar, obrigado a todos por seus comentários. E, em segundo lugar, peço desculpas, talvez eu devesse ter dado mais contexto para o problema. Eu sou novo no R, mas não muito na classificação de texto. Eu já fiz o pré-processamento (stemming, remoção de palavras irrelevantes, conversão tf-idf etc.) em algumas partes dos meus dados usando pacote tm , apenas para ter uma ideia das coisas. O tm era tão lento, mesmo em cerca de 200docs, que fiquei preocupado com a escalabilidade. Então comecei a jogar com o FSelector e até isso foi muito lento. E foi nesse ponto que fiz o meu OP.
EDIÇÃO 4: Ocorreu-me que eu tenho 10 aulas e cerca de ~ 300 documentos de treinamento por turma e, na verdade, estou construindo a matriz termXdoc de todo o conjunto de treinamento, resultando em uma dimensionalidade muito alta. Mas e quanto a reduzir todos os problemas de classificação 1 em 1 para uma série de problemas de classificação binária? Isso reduziria drasticamente o número de documentos de treinamento (e, portanto, a dimensionalidade) em cada uma das etapas do k-1, não seria? Então, essa abordagem é boa? Como ele se compara em termos de precisão à implementação comum de várias classes?