Perguntas com a marcação «clustering»

A análise de cluster ou clustering é a tarefa de agrupar um conjunto de objetos de forma que os objetos do mesmo grupo (chamados de cluster) sejam mais semelhantes (em certo sentido ou outro) entre si do que os de outros grupos (clusters) . É uma tarefa principal da mineração de dados exploratória e uma técnica comum para análise de dados estatísticos, usada em muitos campos, incluindo aprendizado de máquina, reconhecimento de padrões, análise de imagens, recuperação de informações etc.



4
Sugerir conjuntos de dados de treinamento do classificador de texto
Quais conjuntos de dados disponíveis gratuitamente posso usar para treinar um classificador de texto? Estamos tentando melhorar o engajamento de nossos usuários, recomendando o conteúdo mais relacionado a ele. Pensamos que, se classificássemos nosso conteúdo com base em um conjunto predefinido de palavras, podemos recomendar a ele que envolva conteúdo, …






3
Como avaliar o agrupamento de texto?
Quais métricas podem ser usadas para avaliar modelos de cluster de texto? Eu usei tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ hierarchical clustering (metric is cosine similarity). Como decidir qual modelo é o melhor?


1
Qual é a diferença entre os autovetores da matriz de afinidade e os autovetores laplacianos do gráfico no contexto do agrupamento espectral?
No agrupamento espectral, é prática padrão resolver o problema do vetor próprio L v = λ veuv=λvL v = \lambda v onde é o gráfico Laplaciano, é o vetor próprio relacionado ao valor próprio .eueuLvvvλλ\lambda Minha pergunta: por que se preocupar em pegar o gráfico Laplaciano? Eu não poderia simplesmente …

3
Algoritmo para segmentação de dados de sequência
Eu tenho uma grande sequência de vetores de comprimento N. Preciso de algum algoritmo de aprendizado não supervisionado para dividir esses vetores em segmentos M. Por exemplo: O K-means não é adequado, porque coloca elementos semelhantes de locais diferentes em um único cluster. Atualizar: Os dados reais são assim: Aqui, …

1
Gere previsões ortogonais (não correlacionadas) para uma determinada variável
Eu tenho uma Xmatriz, uma yvariável e outra variável ORTHO_VAR. Preciso prever a yvariável usando X, no entanto, as previsões desse modelo precisam ser ortogonais e, ao ORTHO_VARmesmo tempo, estar o mais correlacionadas ypossível. Eu preferiria que as previsões fossem geradas com um método não paramétrico como, por exemplo, xgboost.XGBRegressormas …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.