Estatísticas e Big Data scikit-learn

Por que a maioria dos meus pontos é classificada como ruído usando o DBSCAN?

Estou usando vários algoritmos de cluster do sklearn para agrupar alguns dados e não consigo descobrir o que está acontecendo com o DBSCAN. Meus dados são uma matriz de termos de documento do TfidfVectorizer, com algumas centenas de documentos pré-processados. Código: tfv = TfidfVectorizer(stop_words=STOP_WORDS, tokenizer=StemTokenizer()) data = tfv.fit_transform(dataset) db = …

7 clustering scikit-learn text-mining dbscan

Melhor maneira de obter a média do escore F com classes desequilibradas

Eu tenho um conjunto de dados com classes desequilibradas. Três classes compõem cerca de 60% dos dados. Além disso, tenho divisões de teste diferentes que causam um desequilíbrio. Por exemplo: Conjunto de trens: label_1 ... label_n Conjunto de teste: label_1, label_3, label_9 Isso significa que, embora eu tenha apenas três …

7 machine-learning scikit-learn average unbalanced-classes

Perguntas com a marcação «scikit-learn»