Estatísticas e Big Data classification

1

CARRO: Seleção do melhor preditor para divisão quando ganhos na diminuição da impureza são iguais?

Minha pergunta lida com árvores de classificação . Considere o seguinte exemplo do conjunto de dados Iris: Desejo selecionar manualmente o melhor preditor para a primeira divisão. De acordo com o algoritmo CART, o melhor recurso para fazer uma divisão é aquele que maximiza a diminuição da impureza da partição, …

8 r machine-learning classification data-mining cart

1

Os dados desequilibrados da amostragem para cima ou para baixo são realmente eficazes? Por quê?

Frequentemente ouço a amostragem de dados para cima ou para baixo discutida como uma maneira de lidar com a classificação de dados desequilibrados. Entendo que isso pode ser útil se você estiver trabalhando com um classificador binário (em oposição a probabilístico ou baseado em pontuação) e tratando-o como uma caixa …

8 classification roc unbalanced-classes

3

Como você categorizaria / extrair informações das descrições de cargo?

Eu tenho várias descrições de trabalho inseridas pelos usuários. Há todo tipo de erro de ortografia e dados incorretos. ou seja: ... tulane univ hospital tulip tullett prebon ... weik investment weill cornell university medical center weis weiss waldee hohimer dds welded constrction l.p. welder welder welder ... Quais etapas …

8 classification categorical-data text-mining

1

Usando a regra de pontuação adequada para determinar a associação de classe a partir da regressão logística

Estou usando regressão logística para prever a probabilidade de ocorrência de um evento. Por fim, essas probabilidades são colocadas em um ambiente de produção, onde nos concentramos o máximo possível em atingir nossas previsões de "sim". Portanto, é útil ter uma idéia do que "hits" ou "não hits" definitivos podem …

8 r logistic classification loss-functions scoring-rules

4

Qual é uma boa nota para florestas aleatórias com classificação sklearn de três classes? [duplicado]

Esta pergunta já tem respostas aqui : Meu modelo é bom, com base no valor da métrica de diagnóstico ( / AUC / precisão / RMSE etc.)? R2R2R^2 (3 respostas) Fechado há 7 meses . Eu tenho dados de aprendizagem que consistem em ~ 45k amostras, cada uma com 21 …

8 classification random-forest out-of-sample

2

construindo um modelo de classificação para dados estritamente binários

Eu tenho um conjunto de dados que é estritamente binário. o conjunto de valores de cada variável está no domínio: true, false. a propriedade "especial" desse conjunto de dados é que a maioria esmagadora dos valores é "falsa". Eu já usei um algoritmo de aprendizado de rede bayesiana para aprender …

8 machine-learning classification svm random-forest bayesian-network

2

Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis (id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly spendé a …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

3

Como executar a classificação Random Forest não supervisionada usando o código de Breiman?

Estou trabalhando com o código de floresta aleatória de Breiman ( http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2 ) para classificação de dados de satélite (aprendizado supervisionado). Estou usando um conjunto de dados de treinamento e teste com tamanho de amostra de 2000 e tamanho variável 10. Os dados são classificados em duas classes, A e …

8 machine-learning classification random-forest

1

Distância de Mahalanobis em dados não normais

A distância de Mahalanobis, quando usada para fins de classificação, normalmente assume uma distribuição normal multivariada, e as distâncias do centróide devem seguir uma (com graus de liberdade iguais ao número de dimensões / características). Podemos calcular a probabilidade de um novo ponto de dados pertencer ao conjunto usando sua …

8 hypothesis-testing classification multivariate-analysis poisson-distribution joint-distribution

2

Tamanho da amostra em relação à previsão na classificação e regressão

No que diz respeito ao teste de hipóteses, a estimativa do tamanho das amostras é feita através de energia, e é intuitivo que aumentar o mesmo tamanho aumenta a precisão dos efeitos estimados. Mas e quanto à previsão para classificação e regressão? Quais aspectos do problema de previsão são influenciados …

8 classification sample-size prediction

3

Por que o svm não é tão bom quanto a árvore de decisão nos mesmos dados?

Eu sou novo no aprendizado de máquina e tento usar o scikit-learn (sklearn) para lidar com um problema de classificação. O DecisionTree e o SVM podem treinar um classificador para esse problema. Uso sklearn.ensemble.RandomForestClassifiere sklearn.svm.SVCajusto os mesmos dados de treinamento (cerca de 500.000 entradas com 50 recursos por entrada). O …

8 machine-learning classification svm scikit-learn

3

Detectando Clusters em uma Sequência Binária

Eu tenho uma sequência binária como 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Onde clusters de 1s são seguidos por um número maior de zeros, como na figura abaixo (preto significa 1): Eu gostaria de aplicar uma técnica (preferencialmente em R ou em Python) em que eu possa detectar automaticamente esses clusters de 1s e produzir …

8 classification clustering data-mining pattern-recognition binary-data

5

Classificação vs. regressão para predição do sinal de uma variável de resposta contínua

Digamos que eu queira prever se um projeto será ou não lucrativo. Nos meus dados de amostra, a variável de resposta é na verdade uma variável contínua: o lucro / perda do projeto. Como meu objetivo final é apenas uma classificação binária (projeto lucrativo ou projeto não lucrativo), devo usar …

8 regression classification predictive-models

3

Análogos de sensibilidade e especificidade para resultados contínuos

Como posso calcular a sensibilidade e a especificidade (ou medidas análogas) de um teste de diagnóstico contínuo para prever um resultado contínuo (por exemplo, pressão sanguínea) sem dicotomizar o resultado? Alguma ideia? Parece que os pesquisadores fizeram isso usando a modelagem de efeitos mistos (veja o link abaixo), mas não …

8 classification mixed-model predictive-models roc continuous-data

1

Generalização da distribuição e classificação normais multivariadas

Estou interessado em uma família de distribuições multivariadas que podem ser vistas como uma generalização da distribuição normal multivariada, na medida em que são definidas por um valor de expectativa e uma matriz de covariância , além de uma função monotonamente decrescente modo que a densidade seja que é a …

8 distributions classification normal-distribution multivariate-analysis

Perguntas com a marcação «classification»