Estatísticas e Big Data information-retrieval

6

Sou programador sem formação estatística e atualmente estou procurando métodos de classificação diferentes para um grande número de documentos diferentes que quero classificar em categorias predefinidas. Eu tenho lido sobre kNN, SVM e NN. No entanto, tenho alguns problemas para começar. Quais recursos você recomenda? Eu sei muito bem o …

32 classification information-retrieval text-mining

2

Medição de similaridade de documentos

Para agrupar documentos (texto), você precisa de uma maneira de medir a semelhança entre pares de documentos. Duas alternativas são: Compare documentos como vetores de termos usando Cosine Similarity - e TF / IDF como os pesos dos termos. Compare a distribuição de probabilidade de cada documento usando a divergência …

21 information-retrieval

4

Como projetar um novo vetor no espaço PCA?

Depois de executar a análise de componentes principais (PCA), quero projetar um novo vetor no espaço do PCA (ou seja, encontrar suas coordenadas no sistema de coordenadas do PCA). Eu calculei o PCA na linguagem R usando prcomp. Agora eu devo poder multiplicar meu vetor pela matriz de rotação PCA. …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

1

Precisão Média Média vs Classificação Recíproca Média

Estou tentando entender quando é apropriado usar o MAP e quando o MRR deve ser usado. Eu encontrei esta apresentação que afirma que o MRR é melhor utilizado quando o número de resultados relevantes é menor que 5 e melhor quando é 1. Em outros casos, o MAP é apropriado. …

12 information-retrieval average-precision

1

Um paralelo entre LSA e pLSA

No artigo original do pLSA, o autor, Thomas Hoffman, traça um paralelo entre as estruturas de dados do pLSA e do LSA que eu gostaria de discutir com você. Fundo: Inspirando-se na Recuperação de Informação, suponha que tenhamos uma coleção de documentos e um vocabulário de termosNNND={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, …

9 machine-learning conditional-probability svd information-retrieval lsa

1

Como comparar eventos observados x eventos esperados?

Suponha que eu tenha uma amostra de frequências de 4 eventos possíveis: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e tenho as probabilidades esperadas de meus eventos ocorrerem: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Com a soma das frequências …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Compreendendo e aplicando análise de sentimentos

Eu estava acabando de receber um projeto de análise de sentimentos para algumas coleções de documentos. Ao pesquisar no Google, muitas pesquisas relacionadas a sentimentos surgiram. Minhas perguntas são: Quais são os principais métodos / algoritmos para análise de sentimentos no campo de aprendizado de máquina e análise estatística? Existem …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

1

Por que o Lucene IDF tem um +1 aparentemente adicional?

Dos documentos Lucene IDF=1+log(numDocsdocFreq+1)IDF=1+log⁡(numDocsdocFreq+1)\text{IDF} = 1 + \log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) Em outras referências (isto é, wikipedia ), o IDF é normalmente calculado como ou para evitar mergulhar em 0.log(numDocsdocFreq)log⁡(numDocsdocFreq)\log\left(\frac{\text{numDocs}}{\text{docFreq}}\right)log(numDocsdocFreq+1)log⁡(numDocsdocFreq+1)\log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) Também percebo que o Lucene usa vez de para calcular o TF, mas meu entendimento é que essa é apenas uma transformação preferida, …

8 information-retrieval tf-idf

2

Pode-se usar o Kappa de Cohen apenas para dois julgamentos?

Estou usando o Kappa de Cohen para calcular a concordância entre dois juízes. É calculado como: P(A)−P(E)1−P(E)P(A)−P(E)1−P(E) \frac{P(A) - P(E)}{1 - P(E)} onde é a proporção de concordância e a probabilidade de concordância por acaso.P(A)P(A)P(A)P(E)P(E)P(E) Agora, para o seguinte conjunto de dados, obtenho os resultados esperados: User A judgements: - …

8 reliability information-retrieval

Perguntas com a marcação «information-retrieval»