Perguntas com a marcação «data-mining»

A mineração de dados usa métodos da inteligência artificial em um contexto de banco de dados para descobrir padrões anteriormente desconhecidos. Como tal, os métodos geralmente não são supervisionados. Está intimamente relacionado, mas não é idêntico ao aprendizado de máquina. As principais tarefas da mineração de dados são análise de cluster, detecção de outlier e mineração de regras de associação.

2
Determinando o maior colaborador de um grupo
Eu não sei muito sobre estatísticas, então tenha paciência comigo. Digamos que eu tenho um conjunto de 1000 trabalhadores. Quero descobrir quem é o trabalhador mais esforçado, mas só posso medir a quantidade de trabalho realizado em grupos de 1 a 100 em mais de uma hora de trabalho. Supondo …


2
Compreendendo e aplicando análise de sentimentos
Eu estava acabando de receber um projeto de análise de sentimentos para algumas coleções de documentos. Ao pesquisar no Google, muitas pesquisas relacionadas a sentimentos surgiram. Minhas perguntas são: Quais são os principais métodos / algoritmos para análise de sentimentos no campo de aprendizado de máquina e análise estatística? Existem …


5
O que posso fazer além da correlação de Pearson?
Enquanto verificava se duas variáveis ​​estavam correlacionadas, observei que a aplicação da correlação de Pearson produziu números tão baixos quanto 0,1, indicando que não há correlação. Existe algo que eu possa fazer para fortalecer essa afirmação? O conjunto de dados (subconjunto por causa dos limites de postagem) que estou vendo …

3
Algoritmo a priori em inglês simples?
Eu li um artigo wiki sobre Apriori. Tenho problemas para entender a ameixa e a etapa de ingresso. Alguém pode me explicar como o algoritmo Apriori funciona em termos simples (para que iniciantes como eu possam entender facilmente)? Será bom se alguém explicar o processo passo a passo envolvido nele.

3
Como selecionar rapidamente variáveis ​​importantes de um conjunto de dados muito grande?
Eu tenho um conjunto de dados com cerca de 2.000 variáveis ​​binárias / 200.000 linhas e estou tentando prever uma única variável dependente binária. Meu principal objetivo, neste estágio, não é obter precisão de previsão, mas identificar quais dessas variáveis ​​são preditores importantes. Gostaria de reduzir o número de variáveis …

2
Introdução ao biclustering
Eu tenho feito algumas pesquisas casuais na Internet sobre biclusters. (Eu li o artigo da Wiki várias vezes.) Até agora, parece que existem poucas definições ou terminologia padrão. Fiquei me perguntando se havia algum documento ou livro padrão que alguém interessado em algoritmos para encontrar biclusters deveria ler. É possível …

2
Calcular curva ROC para dados
Portanto, tenho 16 ensaios em que estou tentando autenticar uma pessoa de uma característica biométrica usando a Distância de Hamming. Meu limite está definido como 3,5. Meus dados estão abaixo e apenas o teste 1 é um verdadeiro positivo: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
A Random Forest é uma boa opção para a classificação de dados não balanceados? [fechadas]
Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 3 anos . Apesar das abordagens semelhantes e outras crescentes de variabilidade de …






Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.