Ciência de dados text-mining

2

Escalada de dados de forma ética e econômica

Poucas coisas na vida me dão prazer, como coletar dados estruturados e não estruturados da Internet e utilizá-los em meus modelos. Por exemplo, a Ciência Toolkit de dados (ou RDSTKpara programadores R) permite-me para puxar lotes de bons baseados em localização de dados usando IP de ou endereços de e …

13 text-mining scraping

4

Alternativas ao TF-IDF e Cosine Similarity ao comparar documentos de diferentes formatos

Estou trabalhando em um projeto pequeno e pessoal, que utiliza as habilidades profissionais de um usuário e sugere a carreira ideal para elas, com base nessas habilidades. Eu uso um banco de dados de listas de empregos para conseguir isso. No momento, o código funciona da seguinte maneira: 1) Processe …

12 nlp text-mining similarity cosine-distance

3

Classificação de texto não estruturada

Vou classificar documentos de texto não estruturados, ou seja, sites de estrutura desconhecida. O número de classes para as quais estou classificando é limitado (neste momento, acredito que não haja mais que três). Alguém tem uma sugestão de como eu posso começar? A abordagem "saco de palavras" é viável aqui? …

12 machine-learning classification text-mining beginner

2

Algoritmo de correspondência de preferências

Há um projeto paralelo no qual estou trabalhando, onde preciso estruturar uma solução para o seguinte problema. Eu tenho dois grupos de pessoas (clientes). O grupo Apretende comprar e o grupo Bpretende vender um determinado produto X. O produto tem uma série de atributos x_i, e meu objetivo é facilitar …

12 bigdata text-mining recommender-system

2

Classificação de documentos usando rede neural convolucional

Estou tentando usar a CNN (rede neural convolucional) para classificar documentos. A CNN para textos / frases curtas foi estudada em muitos artigos. No entanto, parece que nenhum documento usou a CNN para texto ou documento longo. Meu problema é que há muitos recursos em um documento. No meu conjunto …

11 classification neural-network text-mining convnet word2vec

1

Como determinar se a sequência de caracteres é palavra ou ruído em inglês

Que tipo de recurso você tentará extrair da lista de palavras para previsão futura, é uma palavra existente ou apenas uma bagunça de caracteres? Há uma descrição da tarefa que encontrei lá . Você precisa escrever um programa que possa responder se uma determinada palavra é inglês. Isso seria fácil …

11 machine-learning nlp text-mining algorithms

1

aplicação do word2vec em pequenos arquivos de texto

Eu sou totalmente novo no word2vec, então pls aguenta comigo. Eu tenho um conjunto de arquivos de texto, cada um contendo um conjunto de tweets, entre 1000 e 3000. Eu escolhi uma palavra-chave comum ("kw1") e deseja encontrar termos semanticamente relevantes para "kw1" usando o word2vec. Por exemplo, se a …

11 machine-learning nlp text-mining

3

Qual é a diferença entre um vetorizador de hash e um vetorizador de tfidf

Estou convertendo um corpus de documentos de texto em vetores de palavras para cada documento. Eu tentei isso usando um TfidfVectorizer e um HashingVectorizer Entendo que um HashingVectorizernão leva em consideração as IDFpontuações como um TfidfVectorizerfaz. A razão pela qual ainda estou trabalhando com a HashingVectorizeré a flexibilidade que ela …

11 nlp scikit-learn text-mining tfidf

4

Usando cluster no processamento de texto

Olá, esta é minha primeira pergunta na pilha de ciência de dados. Eu quero criar um algoritmo para classificação de texto. Suponha que eu tenha um grande conjunto de textos e artigos. Vamos dizer cerca de 5000 textos simples. Primeiro, uso uma função simples para determinar a frequência de todas …

11 text-mining clustering

3

Aprendizado não supervisionado de recursos para NER

Eu implementei o sistema NER com o uso do algoritmo CRF com meus recursos artesanais que deram bons resultados. O fato é que eu usei muitos recursos diferentes, incluindo tags POS e lemas. Agora eu quero fazer o mesmo NER para um idioma diferente. O problema aqui é que não …

11 nlp text-mining feature-extraction

3

Melhores idiomas para computação científica [fechado]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 5 anos . Parece que a maioria das línguas tem algum número de …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

1

Problema de classificação de texto: Word2Vec / NN é a melhor abordagem?

Estou procurando projetar um sistema que, com um parágrafo de texto, possa categorizá-lo e identificar o contexto: É treinado com parágrafos de texto gerados pelo usuário (como comentários / perguntas / respostas) Cada item do conjunto de treinamento será marcado com. Assim, por exemplo ("categoria 1", "parágrafo de texto") Haverá …

10 neural-network text-mining multiclass-classification word-embeddings

3

Modelo de espaço vetorial cosseno tf-idf para encontrar documentos semelhantes

Possui corpus de mais de um milhão de documentos Para um determinado documento, deseja encontrar documentos semelhantes usando cosseno como no modelo de espaço vetorial d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Todos os tf foram normalizados usando frequência aumentada, para evitar um viés em direção a documentos mais …

10 text-mining similarity

1

Vários rótulos no algoritmo de aprendizado supervisionado

Eu tenho um corpus de texto com os tópicos correspondentes. Por exemplo, "A rapper Tupac was shot in LA"e foi identificado como ["celebrity", "murder"]. Então, basicamente, cada vetor de recursos pode ter muitos rótulos (não a mesma quantidade. O primeiro vetor de recurso pode ter 3 rótulos, segundo 1, terceiro …

10 machine-learning text-mining

3

Análise do arquivo de log: extraindo parte de informações da parte de valor

Estou tentando criar um conjunto de dados em vários arquivos de log de um de nossos produtos. Os diferentes arquivos de log têm seu próprio layout e conteúdo; Eu os agrupei com sucesso, apenas um passo restante ... De fato, as "mensagens" do log são as melhores informações. Não tenho …

10 text-mining clustering

Perguntas com a marcação «text-mining»