Como uso um filtro personalizado de palavras irrelevantes na API Java Weka?


8

Estou usando a API Java Weka para criar um modelo de classificação. Eu posso usar o filtro de palavras irrelevantes embutido. No entanto, preciso usar um filtro personalizado para o meu problema. Não sei como usar um filtro de palavras irrelevantes personalizado na API Java Weka.

Respostas:


7

Você pode tentar o seguinte código.

import weka.core.converters.ConverterUtils.DataSource;
import weka.filters.unsupervised.attribute.StringToWordVector;
import weka.core.Instances;

Instances data = DataSource.read(".../document.txt"); //Your document .
filter.setInputFormat(data);
StringToWordVector filter = new StringToWordVector();
filter.setStopwords(new File(".../stopwords.txt")); //stop words file.
Instances data = Filter.useFilter(data,filter);

Você também pode ler o documento a seguir para entender melhor a API Weka para Java. http://weka.sourceforge.net/doc.stable/


Eu agradeço seu apoio. Muito obrigado. Seu código e o link do documento realmente me ajudam muito.
Radia Karim #

7

Antes de tudo, você precisa preparar um arquivo de texto para suas palavras de parada personalizadas. Então você pode usar o seguinte código:

import weka.filters.unsupervised.attribute.StringToWordVector;

StringToWordVector filter = new StringToWordVector(10000);
filter.setStopwords(new File(".../stopwords.txt"));

Espero que ajude você.


Eu agradeço seu apoio.
Radia Karim #

Eu sou muito novo na programação Java weka-api. Eu não entendo claramente. Alguém por favor me dê uma resposta um pouco mais elaborada. Agradecemos antecipadamente por seu apoio.
Radia Karim #

Por favor, deixe-nos saber qual parte você não entende?
Rejaul Karim
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.