Perguntas com a marcação «information-retrieval»

6
Classificação estatística do texto
Sou programador sem formação estatística e atualmente estou procurando métodos de classificação diferentes para um grande número de documentos diferentes que quero classificar em categorias predefinidas. Eu tenho lido sobre kNN, SVM e NN. No entanto, tenho alguns problemas para começar. Quais recursos você recomenda? Eu sei muito bem o …

2
Medição de similaridade de documentos
Para agrupar documentos (texto), você precisa de uma maneira de medir a semelhança entre pares de documentos. Duas alternativas são: Compare documentos como vetores de termos usando Cosine Similarity - e TF / IDF como os pesos dos termos. Compare a distribuição de probabilidade de cada documento usando a divergência …

4
Como projetar um novo vetor no espaço PCA?
Depois de executar a análise de componentes principais (PCA), quero projetar um novo vetor no espaço do PCA (ou seja, encontrar suas coordenadas no sistema de coordenadas do PCA). Eu calculei o PCA na linguagem R usando prcomp. Agora eu devo poder multiplicar meu vetor pela matriz de rotação PCA. …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 



1
Como comparar eventos observados x eventos esperados?
Suponha que eu tenha uma amostra de frequências de 4 eventos possíveis: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e tenho as probabilidades esperadas de meus eventos ocorrerem: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Com a soma das frequências …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Compreendendo e aplicando análise de sentimentos
Eu estava acabando de receber um projeto de análise de sentimentos para algumas coleções de documentos. Ao pesquisar no Google, muitas pesquisas relacionadas a sentimentos surgiram. Minhas perguntas são: Quais são os principais métodos / algoritmos para análise de sentimentos no campo de aprendizado de máquina e análise estatística? Existem …

1
Por que o Lucene IDF tem um +1 aparentemente adicional?
Dos documentos Lucene IDF=1+log(numDocsdocFreq+1)IDF=1+log⁡(numDocsdocFreq+1)\text{IDF} = 1 + \log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) Em outras referências (isto é, wikipedia ), o IDF é normalmente calculado como ou para evitar mergulhar em 0.log(numDocsdocFreq)log⁡(numDocsdocFreq)\log\left(\frac{\text{numDocs}}{\text{docFreq}}\right)log(numDocsdocFreq+1)log⁡(numDocsdocFreq+1)\log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) Também percebo que o Lucene usa vez de para calcular o TF, mas meu entendimento é que essa é apenas uma transformação preferida, …

2
Pode-se usar o Kappa de Cohen apenas para dois julgamentos?
Estou usando o Kappa de Cohen para calcular a concordância entre dois juízes. É calculado como: P(A)−P(E)1−P(E)P(A)−P(E)1−P(E) \frac{P(A) - P(E)}{1 - P(E)} onde é a proporção de concordância e a probabilidade de concordância por acaso.P(A)P(A)P(A)P(E)P(E)P(E) Agora, para o seguinte conjunto de dados, obtenho os resultados esperados: User A judgements: - …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.