Perguntas com a marcação «text-mining»

Refere-se a um subconjunto de mineração de dados relacionado à extração de informações de dados na forma de texto, reconhecendo padrões. O objetivo da mineração de texto é geralmente classificar um documento em uma de várias categorias de maneira automática e melhorar esse desempenho dinamicamente, tornando-o um exemplo de aprendizado de máquina. Um exemplo desse tipo de mineração de texto são os filtros de spam usados ​​para email.

3
Um exemplo: regressão do LASSO usando glmnet para resultado binário
Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Como a camada 'Incorporação' de Keras funciona?
Precisa entender o funcionamento da camada 'Incorporação' na biblioteca Keras. Eu executo o seguinte código em Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) que fornece a seguinte saída …

6
Como quase igualar dois vetores de strings (em R)?
Não sei ao certo como isso deve ser denominado; portanto, corrija-me se souber um termo melhor. Eu tenho duas listas. Um dos 55 itens (por exemplo: um vetor de strings) e o outro de 92. Os nomes dos itens são semelhantes, mas não idênticos. Eu gostaria de encontrar o melhor …
36 r  text-mining 

6
Classificação estatística do texto
Sou programador sem formação estatística e atualmente estou procurando métodos de classificação diferentes para um grande número de documentos diferentes que quero classificar em categorias predefinidas. Eu tenho lido sobre kNN, SVM e NN. No entanto, tenho alguns problemas para começar. Quais recursos você recomenda? Eu sei muito bem o …






7
Em Naive Bayes, por que se preocupar com a suavização de Laplace quando temos palavras desconhecidas no conjunto de testes?
Eu estava lendo a Classificação Naive Bayes hoje. Eu li, sob o título Estimativa de parâmetros, com 1 suavização : Vamos referem-se a uma classe (como positiva ou negativa), e deixe referem-se a um símbolo ou palavra.cccwww O estimador de probabilidade máxima para éP(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words …



1
O desempenho de última geração relatado do uso de vetores de parágrafo para análise de sentimentos foi replicado?
Fiquei impressionado com os resultados no artigo da ICML 2014 " Representações distribuídas de frases e documentos " de Le e Mikolov. A técnica que eles descrevem, denominada "vetores de parágrafos", aprende representações não supervisionadas de parágrafos / documentos arbitrariamente longos, com base em uma extensão do modelo word2vec. O …

3
Aprendizagem semi-supervisionada, aprendizagem ativa e aprendizagem profunda para classificação
Edição final com todos os recursos atualizados: Para um projeto, estou aplicando algoritmos de aprendizado de máquina para classificação. Desafio: dados rotulados bastante limitados e muito mais dados não rotulados. Metas: Aplicar classificação semi-supervisionada Aplique um processo de rotulagem semi-supervisionado (conhecido como aprendizado ativo) Encontrei muitas informações de trabalhos de …

2
Por que o Natural Language Processing não se enquadra no domínio Machine Learning? [fechadas]
Atualmente, essa questão não se encaixa no nosso formato de perguntas e respostas. Esperamos que as respostas sejam apoiadas por fatos, referências ou conhecimentos, mas essa pergunta provavelmente solicitará debate, argumentos, pesquisas ou discussão prolongada. Se você acha que essa pergunta pode ser melhorada e possivelmente reaberta, visite o centro …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.