Ciência de dados text-mining

5

Quais são algumas maneiras padrão de calcular a distância entre documentos?

Quando digo "documento", tenho em mente páginas da web como artigos da Wikipedia e notícias. Prefiro respostas que ofereçam métricas de distância lexical de baunilha ou métricas de distância semântica de última geração, com maior preferência por essa última.

34 machine-learning data-mining nlp text-mining similarity

1

Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em tentar cultivar 500 …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

Quais algoritmos devo usar para executar a classificação do trabalho com base nos dados do currículo?

Note que estou fazendo tudo em R. O problema é o seguinte: Basicamente, eu tenho uma lista de currículos (CVs). Alguns candidatos terão experiência profissional antes e outros não. O objetivo aqui é: com base no texto em seus currículos, quero classificá-los em diferentes setores de trabalho. Sou particular naqueles …

28 machine-learning classification nlp text-mining

3

Abordagem geral para extrair o texto principal da frase (PNL)

Dada uma frase como: Complimentary gym access for two for the length of stay ($12 value per person per day) Que abordagem geral posso adotar para identificar a palavra academia ou acesso à academia?

27 machine-learning nlp text-mining data-cleaning

3

Extração de palavras-chave / frase do Texto usando bibliotecas do Deep Learning

Talvez isso seja muito amplo, mas estou procurando referências sobre como usar o aprendizado profundo em uma tarefa de resumo de texto. Eu já implementei a sumarização de texto usando abordagens padrão de frequência de palavras e classificação de frases, mas gostaria de explorar a possibilidade de usar técnicas de …

20 neural-network text-mining deep-learning beginner tensorflow

3

qual é a diferença entre classificação de texto e modelos de tópicos?

Conheço a diferença entre agrupamento e classificação no aprendizado de máquina, mas não entendo a diferença entre classificação de texto e modelagem de tópicos para documentos. Posso usar a modelagem de tópicos sobre documentos para identificar um tópico? Posso usar métodos de classificação para classificar o texto nesses documentos?

20 classification text-mining topic-model

1

O que é a Distância Hellinger e quando usá-la?

Estou interessado em saber o que realmente acontece no Hellinger Distance (em termos simples). Além disso, também estou interessado em saber quais são os tipos de problemas que podemos usar o Hellinger Distance? Quais são os benefícios do uso do Hellinger Distance?

19 machine-learning data-mining text-mining distance

3

Como aumentar uma lista de palavras relacionadas com base nas palavras-chave iniciais?

Vi recentemente um recurso interessante que já estava disponível no Planilhas Google: você começa escrevendo algumas palavras-chave relacionadas em células consecutivas, diga: "azul", "verde", "amarelo" e gera automaticamente palavras-chave semelhantes (neste caso , outras cores). Veja mais exemplos neste vídeo do YouTube . Eu gostaria de reproduzir isso no meu …

19 nlp text-mining freebase

4

Como anotar documentos de texto com metadados?

Tendo muitos documentos de texto (em linguagem natural, não estruturados), quais são as maneiras possíveis de anotá-los com alguns metadados semânticos? Por exemplo, considere um pequeno documento: I saw the company's manager last day. Para poder extrair informações dele, ele deve ser anotado com dados adicionais para ser menos ambíguo. …

18 nlp metadata data-cleaning text-mining

2

Doc2Vec - Como rotular os parágrafos (gensim)

Eu estou querendo saber como rotular (marcar) frases / parágrafos / documentos com doc2vec no gensim - do ponto de vista prático. Você precisa ter cada frase / parágrafo / documento com seu próprio rótulo exclusivo (por exemplo, "Sent_123")? Isso parece útil se você quiser dizer "quais palavras ou frases …

17 machine-learning text-mining word-embeddings word2vec

1

Algoritmos para agrupamento de texto

Eu tenho um problema de agrupar uma quantidade enorme de frases em grupos por seus significados. Isso é semelhante a um problema quando você tem muitas frases e deseja agrupá-las por seus significados. Quais algoritmos são sugeridos para fazer isso? Não conheço o número de clusters com antecedência (e, à …

17 clustering text-mining algorithms scikit-learn

2

Extrair as partes mais informativas do texto dos documentos

Existem artigos ou discussões sobre a extração de parte do texto que contêm mais informações sobre o documento atual. Por exemplo, eu tenho um grande corpus de documentos do mesmo domínio. Há partes do texto que contêm as principais informações sobre as quais um único documento fala. Quero extrair algumas …

16 nlp text-mining

5

aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

4

Como fazer a correspondência difusa de endereços postais?

Gostaria de saber como combinar endereços postais quando o formato deles for diferente ou quando um deles estiver incorreto. Até agora, encontrei soluções diferentes, mas acho que elas são bastante antigas e não muito eficientes. Tenho certeza de que existem métodos melhores; portanto, se você tiver referências para ler, tenho …

14 text-mining data-cleaning

1

Reconhecer uma gramática em uma sequência de tokens difusos

Tenho documentos de texto que contêm principalmente listas de itens. Cada item é um grupo de vários tokens de diferentes tipos: nome, sobrenome, data de nascimento, número de telefone, cidade, ocupação etc. Um token é um grupo de palavras. Os itens podem estar em várias linhas. Os itens de um …

13 data-mining clustering text-mining time-series correlation

Perguntas com a marcação «text-mining»