Ciência de dados similarity

5

Quais são algumas maneiras padrão de calcular a distância entre documentos?

Quando digo "documento", tenho em mente páginas da web como artigos da Wikipedia e notícias. Prefiro respostas que ofereçam métricas de distância lexical de baunilha ou métricas de distância semântica de última geração, com maior preferência por essa última.

34 machine-learning data-mining nlp text-mining similarity

4

Aplicações e diferenças para similaridade de Jaccard e similaridade de cosseno

A semelhança de Jaccard e a cosseno são duas medidas muito comuns ao comparar semelhanças de itens. No entanto, não sou muito claro em que situação qual deve ser preferível a outra. Alguém pode ajudar a esclarecer as diferenças dessas duas medidas (a diferença de conceito ou princípio, não a …

27 similarity

5

Melhor algoritmo prático para similaridade de sentenças

Eu tenho duas frases, S1 e S2, ambas com uma contagem de palavras (geralmente) abaixo de 15. Quais são os algoritmos mais úteis e bem-sucedidos (aprendizado de máquina), que são possivelmente fáceis de implementar (a rede neural é aceitável, a menos que a arquitetura seja tão complicada quanto o Google …

18 nlp clustering word2vec similarity

4

Clustering com base em pontuações de similaridade

Assume-se que temos um conjunto de elementos de E e uma similaridade ( não distância ) função SIM (EI, ej) entre dois elementos ei, ej ∈ E . Como poderíamos (eficientemente) agrupar os elementos de E usando sim ? k significa, por exemplo, requer um determinado k , o Canopy …

17 clustering algorithms similarity

5

aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

Previsão de similaridade de sentença

Estou procurando resolver o seguinte problema: Eu tenho um conjunto de frases como meu conjunto de dados e desejo poder digitar uma nova frase e encontrar a frase em que a nova é a mais semelhante no conjunto de dados. Um exemplo seria semelhante a: Nova frase: " I opened …

15 python nlp scikit-learn similarity text

4

Alternativas ao TF-IDF e Cosine Similarity ao comparar documentos de diferentes formatos

Estou trabalhando em um projeto pequeno e pessoal, que utiliza as habilidades profissionais de um usuário e sugere a carreira ideal para elas, com base nessas habilidades. Eu uso um banco de dados de listas de empregos para conseguir isso. No momento, o código funciona da seguinte maneira: 1) Processe …

12 nlp text-mining similarity cosine-distance

1

MinHashing vs SimHashing

Suponha que eu tenha cinco conjuntos que gostaria de agrupar. Entendo que a técnica SimHashing descrita aqui: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ poderia gerar três clusters ( {A}, {B,C,D}e {E}), por exemplo, se seus resultados fossem: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 Da mesma forma, …

12 clustering similarity

3

Modelo de espaço vetorial cosseno tf-idf para encontrar documentos semelhantes

Possui corpus de mais de um milhão de documentos Para um determinado documento, deseja encontrar documentos semelhantes usando cosseno como no modelo de espaço vetorial d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Todos os tf foram normalizados usando frequência aumentada, para evitar um viés em direção a documentos mais …

10 text-mining similarity

2

Extrair sequência canônica de uma lista de sequências ruidosas

Eu tenho milhares de listas de strings, e cada lista tem cerca de 10 strings. A maioria das seqüências de caracteres em uma determinada lista é muito semelhante, embora algumas sejam (raramente) completamente não relacionadas às outras e algumas contenham palavras irrelevantes. Eles podem ser considerados variações ruidosas de uma …

10 nlp similarity information-retrieval

3

Como fazer produto interno em lote no Tensorflow?

Eu tenho dois tensores a:[batch_size, dim] b:[batch_size, dim]. Quero fazer um produto interno para cada par do lote, gerando c:[batch_size, 1], onde c[i,0]=a[i,:].T*b[i,:]. Quão?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

Quando escolher a regressão linear ou a Árvore de Decisão ou a Floresta Aleatória? [fechadas]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 4 anos . Estou trabalhando em um projeto e estou tendo dificuldades para …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

Corrigindo inconsistências de dados

Estou tentando analisar alguns dados que tenho, mas há muitas inconsistências nos meus dados. Eu tenho uma tabela SQL que estou tentando analisar. A tabela é uma tabela de universidades com a seguinte estrutura: O name:string, city:string, state:string, country:string nome está sempre presente, mas cidade, estado e país podem estar …

8 data-cleaning similarity distance

3

Como encontrar semelhança entre diferentes fatores em um conjunto de dados

Introdução Digamos que eu tenho um conjunto de dados de observação diferente de pessoas diferentes e quero agrupar pessoas para saber qual pessoa está mais próxima da outra. Eu também quero ter uma medida para saber quão próximos eles estão um do outro e conhecer a significância estatística. Dados eat_rate …

8 machine-learning r similarity correlation

3

Eu tenho uma carga de documentos, que possuem uma carga de pares de valores-chave. A chave pode não ser exclusiva, portanto, pode haver várias chaves do mesmo tipo com valores diferentes. Quero comparar a semelhança das chaves entre dois documentos. Mais especificamente, a semelhança de string desses valores. Estou pensando …

8 algorithms similarity

Perguntas com a marcação «similarity»