1
Por que a maioria dos meus pontos é classificada como ruído usando o DBSCAN?
Estou usando vários algoritmos de cluster do sklearn para agrupar alguns dados e não consigo descobrir o que está acontecendo com o DBSCAN. Meus dados são uma matriz de termos de documento do TfidfVectorizer, com algumas centenas de documentos pré-processados. Código: tfv = TfidfVectorizer(stop_words=STOP_WORDS, tokenizer=StemTokenizer()) data = tfv.fit_transform(dataset) db = …