Perguntas com a marcação «classification»

A classificação estatística é o problema de identificar a subpopulação à qual novas observações pertencem, onde a identidade da subpopulação é desconhecida, com base em um conjunto de dados de treinamento contendo observações cuja subpopulação é conhecida. Portanto, essas classificações mostrarão um comportamento variável que pode ser estudado por estatísticas.


1
Pacote GBM vs. Caret usando GBM
Estive usando o ajuste de modelo caret, mas depois executei novamente o modelo usando o gbmpacote. Entendo que o caretpacote usa gbme a saída deve ser a mesma. No entanto, apenas um teste rápido usando data(iris)mostra uma discrepância no modelo de cerca de 5% usando RMSE e R ^ 2 …



2
Como calcular os pesos dos critérios de Fisher?
Estou estudando reconhecimento de padrões e aprendizado de máquina e me deparei com a seguinte pergunta. Considere um problema de classificação de duas classes com igual probabilidade de classe anterior P(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} e a distribuição de instâncias em cada classe dada por p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 …

5
Como executar a imputação de valores em um número muito grande de pontos de dados?
Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis ​​estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Como treino HMM's para classificação?
Portanto, entendo que, quando você treina HMMs para classificação, a abordagem padrão é: Separe seus conjuntos de dados nos conjuntos de dados para cada classe Treine um HMM por classe No conjunto de testes, compare a probabilidade de cada modelo para classificar cada janela Mas como eu treino o HMM …


2
Por que aumentar o número de recursos reduz o desempenho?
Estou tentando obter uma intuição de por que aumentar o número de recursos pode reduzir o desempenho. Atualmente, estou usando um classificador LDA que apresenta melhor desempenho bivariado entre certos recursos, mas pior ao analisar mais recursos. Minha precisão de classificação é realizada usando um xval estratificado de 10 vezes. …


2
PCA e florestas aleatórias
Para uma competição recente do Kaggle, eu (manualmente) defini 10 recursos adicionais para o meu conjunto de treinamento, que seriam usados ​​para treinar um classificador de florestas aleatórias. Decidi executar o PCA no conjunto de dados com os novos recursos, para ver como eles se comparavam. Eu descobri que ~ …


1
Um conjunto de treinamento escasso afeta adversamente um SVM?
Estou tentando classificar mensagens em diferentes categorias usando um SVM. Eu compilei uma lista de palavras / símbolos desejáveis ​​do conjunto de treinamento. Para cada vetor, que representa uma mensagem, defino a linha correspondente como 1se a palavra estiver presente: "corpus" é: [mary, pequena, cordeiro, estrela, brilho] primeira mensagem: "mary …



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.