Estatísticas e Big Data text-mining

2

Por que o n-grama é usado na identificação do idioma do texto em vez das palavras?

Em duas bibliotecas populares de identificação de idiomas, o Compact Language Detector 2 para C ++ e o detector de idiomas para java, ambos usavam n-gramas (baseados em caracteres) para extrair recursos de texto. Por que um pacote de palavras (única palavra / dicionário) não é usado e qual é …

12 machine-learning classification text-mining natural-language

7

Quais são os pacotes de mineração de texto para R e existem outros programas de mineração de texto de código aberto?

Você pode recomendar um pacote de mineração de texto no R que possa ser usado em grandes volumes de dados? Em segundo lugar, existe uma GUI disponível para qualquer um dos pacotes de mineração de texto no R? Em terceiro lugar, existe outro programa de mineração de texto de código …

12 r text-mining

2

Saco de palavras vs modelo de espaço vetorial?

Qual é / são as diferenças entre estes modelos de representação de texto: Conjunto de palavras e modelo de espaço vetorial?

12 machine-learning text-mining

5

Bons livros sobre mineração de texto?

Olá, queria saber se existem bons livros sobre mineração e classificação de texto com alguns estudos de caso ?. Se não, alguns trabalhos / revistas acessíveis ao público serviriam. Se eles ilustram seus exemplos com R ainda melhor. Não estou procurando manual passo a passo, mas algo que ilustra os …

11 references text-mining

1

IDF incremental (frequência inversa de documentos)

Em um aplicativo de mineração de texto, uma abordagem simples é usar a heurística para criar vetores como representações esparsas compactas dos documentos. Isso é bom para a configuração do lote, onde o corpus inteiro é conhecido a priori, pois o i d f requer o corpus inteirotf−idftf−idftf-idfidfidfidf idf(t)=log|D||{d:t∈d}|idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) …

11 time-series text-mining

1

Compreendendo o uso de logaritmos no logaritmo TF-IDF

Eu estava lendo: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Mas não consigo entender exatamente por que a fórmula foi construída do jeito que é. O que eu entendo: A FDN deve, em algum nível, medir a frequência com que um termo S aparece em cada um dos documentos, diminuindo em valor à medida que o …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Sobre o uso do modelo bigram (N-gram) para criar vetor de recurso para documento de texto

Uma abordagem tradicional da construção de recursos para mineração de texto é a abordagem por palavras, e pode ser aprimorada usando tf-idf para configurar o vetor de recursos que caracteriza um determinado documento de texto. No momento, estou tentando usar o modelo de linguagem bi-grama ou (N-grama) para criar vetor …

10 machine-learning data-mining text-mining natural-language language-models

1

Essa interpretação da escarsidade é precisa?

De acordo com a documentação da removeSparseTermsfunção do tmpacote, é isso que a escarsidade implica: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms …

10 r text-mining natural-language

1

Por que adicionar um na frequência inversa de documentos?

Meu livro lista o idf como em quelog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN : Número de documentos ntntn_t : Número de documentos que contêm o termottt A Wikipedia lista essa fórmula como uma versão real . Aquele que eu entendo: varia de a que parece intuitivo. Mas passa de para que parece tão estranho …

9 text-mining natural-language smoothing

2

O que é o VectorSource e o VCorpus no pacote 'tm' (Text Mining) no R

Não tenho muita certeza do que exatamente VectorSource e VCorpus estão no pacote 'tm'. A documentação não é clara sobre isso, alguém pode me fazer entender em termos simples?

9 r text-mining

1

Usando ferramentas de mineração de texto / processamento de linguagem natural para econometria

Não tenho certeza se esta pergunta é totalmente apropriada aqui; caso contrário, exclua. Eu sou um estudante de graduação em economia. Para um projeto que investiga questões de seguros sociais, tenho acesso a um grande número de relatórios de casos administrativos (> 200k) que lidam com avaliações de elegibilidade. Esses …

9 machine-learning data-mining econometrics text-mining natural-language

1

Como comparar eventos observados x eventos esperados?

Suponha que eu tenha uma amostra de frequências de 4 eventos possíveis: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e tenho as probabilidades esperadas de meus eventos ocorrerem: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Com a soma das frequências …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Compreendendo e aplicando análise de sentimentos

Eu estava acabando de receber um projeto de análise de sentimentos para algumas coleções de documentos. Ao pesquisar no Google, muitas pesquisas relacionadas a sentimentos surgiram. Minhas perguntas são: Quais são os principais métodos / algoritmos para análise de sentimentos no campo de aprendizado de máquina e análise estatística? Existem …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

Como executar vários testes qui-quadrado post-hoc em uma tabela 2 X 3?

Meu conjunto de dados é composto pela mortalidade total ou pela sobrevivência de um organismo em três tipos de locais, costeiros, canais intermediários e offshore. Os números na tabela abaixo representam o número de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Gostaria de …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

3

Como você categorizaria / extrair informações das descrições de cargo?

Eu tenho várias descrições de trabalho inseridas pelos usuários. Há todo tipo de erro de ortografia e dados incorretos. ou seja: ... tulane univ hospital tulip tullett prebon ... weik investment weill cornell university medical center weis weiss waldee hohimer dds welded constrction l.p. welder welder welder ... Quais etapas …

8 classification categorical-data text-mining

Perguntas com a marcação «text-mining»