Perguntas com a marcação «text-mining»

Refere-se a um subconjunto de mineração de dados relacionado à extração de informações de dados na forma de texto, reconhecendo padrões. O objetivo da mineração de texto é geralmente classificar um documento em uma de várias categorias de maneira automática e melhorar esse desempenho dinamicamente, tornando-o um exemplo de aprendizado de máquina. Um exemplo desse tipo de mineração de texto são os filtros de spam usados ​​para email.





4
Verifique se uma sequência de caracteres não é aleatória
Antecedentes Digamos que temos um alfabeto de A,B, C, D, em seguida, examinamos alguns dados e encontramos uma "palavra" que é DDDDDDDDCDDDDDDa chance de encontrar essa aleatória me parece baixa, enquanto a descoberta BABDCABCDACDBACDparece menos aleatória. Pergunta Como devo verificar se as strings que encontro não são aleatórias? Eu tentei …



1
Por que a maioria dos meus pontos é classificada como ruído usando o DBSCAN?
Estou usando vários algoritmos de cluster do sklearn para agrupar alguns dados e não consigo descobrir o que está acontecendo com o DBSCAN. Meus dados são uma matriz de termos de documento do TfidfVectorizer, com algumas centenas de documentos pré-processados. Código: tfv = TfidfVectorizer(stop_words=STOP_WORDS, tokenizer=StemTokenizer()) data = tfv.fit_transform(dataset) db = …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.