Estatísticas e Big Data classification

1

A diferença entre regressão logística e máquinas de vetores de suporte?

Eu sei que a regressão logística encontra um hiperplano que separa as amostras de treinamento. Sei também que as máquinas de vetores de suporte encontram o hiperplano com a margem máxima. Minha pergunta: então a diferença entre regressão logística (LR) e máquinas de vetores de suporte (SVM) é que a …

14 machine-learning classification svm data-mining

1

Classificadores de aprendizado de máquina big-O ou complexidade

Para avaliar o desempenho de um novo algoritmo classificador, estou tentando comparar a precisão e a complexidade (grande O no treinamento e classificação). No Machine Learning: uma revisão , recebo uma lista completa de classificadores supervisionados, também uma tabela de precisão entre os algoritmos e 44 problemas de teste no …

14 machine-learning classification multiple-comparisons algorithms time-complexity

3

Ponderando dados mais recentes no modelo Random Forest

Estou treinando um modelo de classificação com a Random Forest para discriminar entre 6 categorias. Meus dados transacionais têm aproximadamente 60k + observações e 35 variáveis. Aqui está um exemplo de como ele se parece aproximadamente. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 …

14 r machine-learning classification random-forest

1

Usando o LASSO em floresta aleatória

Gostaria de criar uma floresta aleatória usando o seguinte processo: Construa uma árvore em amostras aleatórias dos dados e recursos usando o ganho de informações para determinar as divisões Encerre um nó folha se exceder uma profundidade predefinida OU qualquer divisão resultaria em uma contagem de folhas menor que um …

14 classification random-forest lasso ensemble

1

RandomForest - interpretação de plotagem MDS

Eu usei randomForest para classificar 6 comportamentos de animais (por exemplo, em pé, andando, nadando etc.) com base em 8 variáveis (diferentes posturas e movimentos corporais). O MDSplot no pacote randomForest me fornece essa saída e tenho problemas em interpretar o resultado. Eu fiz um PCA com os mesmos dados …

14 r classification random-forest multidimensional-scaling

5

Como fazer a classificação de texto de uma classe?

Eu tenho que lidar com um problema de classificação de texto. Um rastreador da Web rastreia páginas de um determinado domínio e, para cada página da Web, quero descobrir se ele pertence a apenas uma classe específica ou não. Ou seja, se eu chamar essa classe de Positivo , cada …

14 classification text-mining naive-bayes binary-data

3

Escolha da função de ativação oculta por rede neural

Li em outro lugar que a escolha da função de ativação da camada oculta em um NN deve se basear na necessidade de alguém , ou seja, se você precisar de valores no intervalo de -1 a 1, use tanh e sigmóide no intervalo de 0 a 1. Minha pergunta …

14 machine-learning classification neural-networks

5

Qual algoritmo de classificação estatística pode prever verdadeiro / falso para uma sequência de entradas?

Dada uma sequência de entradas, preciso determinar se essa sequência tem uma certa propriedade desejada. A propriedade só pode ser verdadeira ou falsa, ou seja, existem apenas duas classes possíveis às quais uma sequência pode pertencer. A relação exata entre a sequência e a propriedade não é clara, mas acredito …

14 machine-learning classification modeling

1

Quando a amostragem desequilibrada é super / sub-amostrada, a precisão maximizada difere da minimização dos custos de classificação incorreta?

Antes de mais, gostaria de descrever alguns layouts comuns que os livros de Data Mining usam para explicar como lidar com conjuntos de dados não balanceados . Normalmente, a seção principal é denominada Conjuntos de dados não balanceados e abrange estas duas subseções: Classificação sensível ao custo e técnicas de …

14 machine-learning classification unbalanced-classes

3

Os modelos CART podem ser robustos?

Um colega do meu escritório me disse hoje: "Os modelos de árvores não são bons porque são pegos por observações extremas". Uma pesquisa aqui resultou neste segmento que basicamente suporta a reivindicação. O que me leva à pergunta - em que situação um modelo CART pode ser robusto e como …

14 regression classification robust cart

2

Por que a estimativa de erro OOB da floresta aleatória melhora quando o número de recursos selecionados é diminuído?

Estou aplicando um algoritmo de floresta aleatória como um classificador em um conjunto de dados de microarrays que são divididos em dois grupos conhecidos com milhares de recursos. Após a execução inicial, analiso a importância dos recursos e executo o algoritmo em árvore novamente com os 5, 10 e 20 …

14 r machine-learning classification random-forest

1

Por que usar a Pontuação Gini Normalizada em vez da AUC como avaliação?

A concorrência da Kaggle A Safe Driver Prediction da Porto Seguro usa a Pontuação Gini Normalizada como métrica de avaliação e isso me deixou curioso sobre os motivos dessa escolha. Quais são as vantagens de usar a pontuação gini normalizada em vez das métricas mais comuns, como AUC, para avaliação?

14 classification auc model-evaluation gini

1

Caret glmnet vs cv.glmnet

Parece haver muita confusão na comparação entre usar glmnetdentro caretpara procurar uma lambda ideal e usar cv.glmnetpara fazer a mesma tarefa. Muitas perguntas foram feitas, por exemplo: Modelo de classificação train.glmnet vs. cv.glmnet? Qual é a maneira correta de usar glmnet com cursor? Validação cruzada de `glmnet` usando` caret` mas …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

1

GAM vs LOESS vs splines

Contexto : Eu quero desenhar uma linha em um gráfico de dispersão que não aparece paramétrica, portanto, eu estou usando geom_smooth()no ggplotno R. Ele retorna automaticamente, geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

8

Treine uma rede neural para distinguir entre números pares e ímpares

Pergunta: é possível treinar um NN para distinguir entre números pares e ímpares usando apenas como entrada os próprios números? Eu tenho o seguinte conjunto de dados: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 Treinei um NN …

14 machine-learning classification categorical-data neural-networks genetic-algorithms

Perguntas com a marcação «classification»