Perguntas com a marcação «text-mining»

Refere-se a um subconjunto de mineração de dados relacionado à extração de informações na forma de texto, reconhecendo padrões. O objetivo da mineração de texto geralmente é classificar um determinado documento em uma de várias categorias de maneira automática e melhorar esse desempenho dinamicamente, tornando-o um exemplo de aprendizado de máquina. Um exemplo desse tipo de mineração de texto são os filtros de spam usados ​​para email.


1
Quantos dados de treinamento o word2vec precisa?
Eu gostaria de comparar a diferença entre a mesma palavra mencionada em diferentes fontes. Ou seja, como os autores diferem no uso de palavras mal definidas, como "democracia". Um breve plano foi Pegue os livros que mencionam o termo "democracia" como texto simples Em cada livro, substitua democracypordemocracy_%AuthorName% Treine um …

3

2
Quando escolher a regressão linear ou a Árvore de Decisão ou a Floresta Aleatória? [fechadas]
Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 4 anos . Estou trabalhando em um projeto e estou tendo dificuldades para …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
que técnicas de machine / deep learning / nlp são usadas para classificar determinadas palavras como nome, número de celular, endereço, email, estado, município, cidade etc.
Estou tentando gerar um modelo inteligente que pode digitalizar um conjunto de palavras ou seqüências de caracteres e classificá-los como nomes, números de celular, endereços, cidades, estados, países e outras entidades usando aprendizado de máquina ou aprendizado profundo. Eu tinha procurado abordagens, mas infelizmente não encontrei nenhuma abordagem a seguir. …

4
Sugerir conjuntos de dados de treinamento do classificador de texto
Quais conjuntos de dados disponíveis gratuitamente posso usar para treinar um classificador de texto? Estamos tentando melhorar o engajamento de nossos usuários, recomendando o conteúdo mais relacionado a ele. Pensamos que, se classificássemos nosso conteúdo com base em um conjunto predefinido de palavras, podemos recomendar a ele que envolva conteúdo, …


3
Como avaliar o agrupamento de texto?
Quais métricas podem ser usadas para avaliar modelos de cluster de texto? Eu usei tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ hierarchical clustering (metric is cosine similarity). Como decidir qual modelo é o melhor?

4
Classificação de email em R
Estou trabalhando em um projeto no R onde tenho cerca de 1200 e-mails de uma empresa, a maioria rotulada como classe11_{1} ou classe22_{2}, que são os tipos de solicitações. Cerca de 1000 e-mails são rotulados como classe11_{1}e 200 são rotulados como classe22_{2}. Meu objetivo é usar o aprendizado supervisionado para …

4
Como aprender a detecção de email de spam?
Quero saber como é feito um detector de e-mail de spam. Não estou tentando criar um produto comercial, será um exercício de aprendizado sério para mim. Portanto, estou procurando recursos, como projetos existentes, código fonte, artigos, documentos, etc., que eu possa seguir. Quero aprender com exemplos, acho que não sou …


1
Diferença entre tf-idf e tf com Random Forests
Estou trabalhando em um problema de classificação de texto usando a Floresta aleatória como classificadores e uma abordagem de palavras-chave. Estou usando a implementação básica do Random Forests (o presente no scikit), que cria uma condição binária em uma única variável em cada divisão. Diante disso, existe uma diferença entre …

1
Erro R usando o pacote tm (mineração de texto)
Estou tentando usar o pacote tm para converter um vetor de seqüências de texto em um elemento corpus. Meu código se parece com isso Corpus(d1$Yes) onde d1$Yesé um fator com 124 níveis, cada um contendo uma sequência de texto. Por exemplo, d1$Yes[246] = "So we can get the boat out!" …
8 r  text-mining 



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.