Perguntas com a marcação «text-mining»

Refere-se a um subconjunto de mineração de dados relacionado à extração de informações de dados na forma de texto, reconhecendo padrões. O objetivo da mineração de texto é geralmente classificar um documento em uma de várias categorias de maneira automática e melhorar esse desempenho dinamicamente, tornando-o um exemplo de aprendizado de máquina. Um exemplo desse tipo de mineração de texto são os filtros de spam usados ​​para email.




5
Bons livros sobre mineração de texto?
Olá, queria saber se existem bons livros sobre mineração e classificação de texto com alguns estudos de caso ?. Se não, alguns trabalhos / revistas acessíveis ao público serviriam. Se eles ilustram seus exemplos com R ainda melhor. Não estou procurando manual passo a passo, mas algo que ilustra os …

1
IDF incremental (frequência inversa de documentos)
Em um aplicativo de mineração de texto, uma abordagem simples é usar a heurística para criar vetores como representações esparsas compactas dos documentos. Isso é bom para a configuração do lote, onde o corpus inteiro é conhecido a priori, pois o i d f requer o corpus inteirotf−idftf−idftf-idfidfidfidf idf(t)=log|D||{d:t∈d}|idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) …


3
Sobre o uso do modelo bigram (N-gram) para criar vetor de recurso para documento de texto
Uma abordagem tradicional da construção de recursos para mineração de texto é a abordagem por palavras, e pode ser aprimorada usando tf-idf para configurar o vetor de recursos que caracteriza um determinado documento de texto. No momento, estou tentando usar o modelo de linguagem bi-grama ou (N-grama) para criar vetor …

1
Essa interpretação da escarsidade é precisa?
De acordo com a documentação da removeSparseTermsfunção do tmpacote, é isso que a escarsidade implica: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms …



1
Usando ferramentas de mineração de texto / processamento de linguagem natural para econometria
Não tenho certeza se esta pergunta é totalmente apropriada aqui; caso contrário, exclua. Eu sou um estudante de graduação em economia. Para um projeto que investiga questões de seguros sociais, tenho acesso a um grande número de relatórios de casos administrativos (> 200k) que lidam com avaliações de elegibilidade. Esses …

1
Como comparar eventos observados x eventos esperados?
Suponha que eu tenha uma amostra de frequências de 4 eventos possíveis: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e tenho as probabilidades esperadas de meus eventos ocorrerem: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Com a soma das frequências …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Compreendendo e aplicando análise de sentimentos
Eu estava acabando de receber um projeto de análise de sentimentos para algumas coleções de documentos. Ao pesquisar no Google, muitas pesquisas relacionadas a sentimentos surgiram. Minhas perguntas são: Quais são os principais métodos / algoritmos para análise de sentimentos no campo de aprendizado de máquina e análise estatística? Existem …

4
Como executar vários testes qui-quadrado post-hoc em uma tabela 2 X 3?
Meu conjunto de dados é composto pela mortalidade total ou pela sobrevivência de um organismo em três tipos de locais, costeiros, canais intermediários e offshore. Os números na tabela abaixo representam o número de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Gostaria de …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.