Estatísticas e Big Data classification

2

Configurações Muitos algoritmos operam em uma única relação ou tabela, enquanto muitos bancos de dados do mundo real armazenam informações em várias tabelas (Domingos, 2003). Pergunta Quais tipos de algoritmos aprendem bem em várias tabelas (relacionais). Em particular, estou interessado nos algoritmos aplicáveis às tarefas de regressão e classificação (não …

9 regression machine-learning classification dataset

1

Como comparar eventos observados x eventos esperados?

Suponha que eu tenha uma amostra de frequências de 4 eventos possíveis: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e tenho as probabilidades esperadas de meus eventos ocorrerem: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Com a soma das frequências …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

Classificação com um preditor dominante

Eu tenho um problema de classificação ( classe ), da ordem de 100 preditores de valor real, um dos quais parece ter muito mais poder explicativo do que qualquer outro. Eu gostaria de me aprofundar nos efeitos das outras variáveis. No entanto, as técnicas padrão de aprendizado de máquina (florestas …

9 machine-learning classification

2

Remover duplicatas do conjunto de treinamento para classificação

Digamos que eu tenha várias linhas para um problema de classificação: X1 1, . . . XN, YX1,...XN,YX_1, ... X_N, Y Onde são os recursos / preditores e é a classe à qual a combinação de recursos da linha pertence.X1 1, . . . , XNX1,...,XNX_1, ..., X_NYYY Muitas combinações …

9 machine-learning classification data-mining logistic stratification

2

Método (s) de última geração para encontrar zero partes médias de uma série temporal

Tenho séries temporais barulhentas que preciso segmentar nessas porções com média zero e nas porções sem média zero. Encontrar os limites com a maior precisão possível é importante (claramente onde o limite se encontra com precisão é um pouco subjetivo). Eu acho que uma variante de cusum poderia ser adaptada …

9 time-series classification mean change-point

4

Como executar vários testes qui-quadrado post-hoc em uma tabela 2 X 3?

Meu conjunto de dados é composto pela mortalidade total ou pela sobrevivência de um organismo em três tipos de locais, costeiros, canais intermediários e offshore. Os números na tabela abaixo representam o número de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Gostaria de …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

1

Devo embaralhar meus dados novamente?

Temos um conjunto de amostras biológicas bastante caras de obter. Colocamos essas amostras em uma série de testes para gerar dados usados para a construção de um modelo preditivo. Para esse fim, dividimos as amostras em conjuntos de treinamento (70%) e teste (30%). Criamos com sucesso um modelo e o …

9 classification modeling experiment-design cross-validation bootstrap

2

Calcular curva ROC para dados

Portanto, tenho 16 ensaios em que estou tentando autenticar uma pessoa de uma característica biométrica usando a Distância de Hamming. Meu limite está definido como 3,5. Meus dados estão abaixo e apenas o teste 1 é um verdadeiro positivo: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

3

Para um problema de classificação, se a variável de classe tiver distribuição desigual, qual técnica devemos usar?

por exemplo. se eu tiver uma pontuação de crédito variável de classe com duas classes boa e ruim, em que # (bom) = 700 e # (ruim) = 300. Não quero reduzir meus dados. qual técnica devo usar? Eu estava usando SVM, mas está dando tudo de bom em previsões.

9 classification binary-data

3

Como fazer com que as árvores da floresta aleatória votem decimais, mas não binárias

Minha pergunta é sobre classificação binária, por exemplo, separar bons clientes de clientes ruins, mas não regressão ou classificação não-binária. Nesse contexto, uma floresta aleatória é um conjunto de árvores de classificação. Para cada observação, toda árvore vota um "sim" ou "não", e o voto médio de todas as árvores …

9 r machine-learning classification random-forest

2

O que faz um classificador classificar incorretamente os dados? [fechadas]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 2 anos . Poderia ser a partir dos próprios dados? Ou é porque …

9 classification supervised-learning

2

A Random Forest é uma boa opção para a classificação de dados não balanceados? [fechadas]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 3 anos . Apesar das abordagens semelhantes e outras crescentes de variabilidade de …

9 machine-learning classification data-mining supervised-learning statistical-learning

4

Coeficiente de correlação de Matthews com multi-classe

O coeficiente de correlação de Matthews ( ) é uma medida para medir a qualidade de uma classificação binária ([Wikipedia] [1]). formulação é fornecida para classificação binária utilizando valores de positivos verdadeiros ( ), falsos positivos ( ), falsos negativos ( ) e negativos verdadeiros ( ), conforme indicado abaixo:MCCMCC\textrm{MCC}MCCMCC\textrm{MCC} …

9 machine-learning classification multi-class agreement-statistics

3

KNN: 1 vizinho mais próximo

Minha pergunta é sobre o classificador de um vizinho mais próximo e é sobre uma afirmação feita no excelente livro The Elements of Statistical Learning, de Hastie, Tibshirani e Friedman. A declaração é (p. 465, seção 13.3): "Como ele usa apenas o ponto de treinamento mais próximo ao ponto de …

9 classification k-nearest-neighbour

1

Análise Discriminante Linear para

Estou estudando 'Introdução à aprendizagem estatística' de James, Witten, Hastie, Tibshirani. Na página 139 do livro, eles começaram introduzindo o Teorema de Bayes . não é constante matemática, mas denota a probabilidade anterior. Nada é estranho nesta equação. πpk( X) = P( Y= k |X= x ) = πkfk( X …

9 self-study classification

Perguntas com a marcação «classification»