Estatísticas e Big Data classification

3

Por que os classificadores bayesianos ingênuos têm um desempenho tão bom?

Os classificadores Naive Bayes são uma escolha popular para problemas de classificação. Existem muitas razões para isso, incluindo: "Zeitgeist" - amplo conhecimento após o sucesso dos filtros de spam, cerca de dez anos atrás Fácil de escrever O modelo do classificador é rápido de construir O modelo pode ser modificado …

38 classification naive-bayes

2

ImageNet: qual é a taxa de erro top 1 e 5?

Nos documentos de classificação da ImageNet, as taxas de erro 1 e 5 são unidades importantes para medir o sucesso de algumas soluções, mas quais são essas taxas? Na classificação ImageNet com redes neurais profundas convolucionais por Krizhevsky et al. todas as soluções baseadas em uma única CNN (página 7) …

38 classification neural-networks error measurement-error image-processing

3

Aplique incorporações de palavras em todo o documento, para obter um vetor de recurso

Como uso uma incorporação de palavras para mapear um documento para um vetor de recurso, adequado para uso com aprendizado supervisionado? Uma incorporação de palavra mapeia cada palavra para um vetor , onde é um número não muito grande (por exemplo, 500). Os casamentos populares de palavras incluem word2vec e …

38 classification natural-language supervised-learning word2vec word-embeddings

6

Melhore a classificação com muitas variáveis categóricas

Estou trabalhando em um conjunto de dados com mais de 200.000 amostras e aproximadamente 50 recursos por amostra: 10 variáveis contínuas e as outras ~ 40 são variáveis categóricas (países, idiomas, campos científicos etc.). Para essas variáveis categóricas, você tem, por exemplo, 150 países diferentes, 50 idiomas, 50 campos científicos, …

37 machine-learning classification categorical-data random-forest many-categories

3

SVM, sobreajuste, maldição da dimensionalidade

Meu conjunto de dados é pequeno (120 amostras), no entanto, o número de recursos é grande varia de (1000 a 200.000). Embora eu esteja fazendo a seleção de recursos para escolher um subconjunto de recursos, ele ainda pode se ajustar demais. Minha primeira pergunta é: como o SVM lida com …

37 classification svm

2

Regressão logística vs. LDA como classificadores de duas classes

Estou tentando entender a diferença estatística entre análise discriminante linear e regressão logística . Estou certo de que, para um problema de classificação de duas classes , o LDA prevê duas funções de densidade normal (uma para cada classe) que cria um limite linear onde elas se cruzam, enquanto a …

36 regression logistic classification discriminant-analysis

3

PCA e a divisão trem / teste

Eu tenho um conjunto de dados para o qual tenho vários conjuntos de rótulos binários. Para cada conjunto de rótulos, treino um classificador, avaliando-o por validação cruzada. Quero reduzir a dimensionalidade usando a análise de componentes principais (PCA). Minha pergunta é: É possível executar o PCA uma vez para todo …

35 machine-learning classification pca cross-validation

3

Como interpretar OOB e matriz de confusão para floresta aleatória?

Eu recebi um script R de alguém para executar um modelo de floresta aleatório. Modifiquei e executei com alguns dados de funcionários. Estamos tentando prever separações voluntárias. Aqui estão algumas informações adicionais: este é um modelo de classificação em que 0 = funcionário permaneceu, 1 = funcionário desligado, atualmente estamos …

35 r classification error random-forest

5

Conjunto de dados gratuito para classificação dimensional muito alta [fechado]

Quais são os conjuntos de dados disponíveis gratuitamente para classificação com mais de 1000 recursos (ou pontos de amostra, se contiverem curvas)? Já existe um wiki da comunidade sobre conjuntos de dados gratuitos: Localizando amostras de dados disponíveis gratuitamente Mas aqui, seria bom ter uma lista mais focada que possa …

35 machine-learning classification dataset large-data

3

Por que o t-SNE não é usado como uma técnica de redução de dimensionalidade para agrupamento ou classificação?

Em uma tarefa recente, fomos instruídos a usar o PCA nos dígitos do MNIST para reduzir as dimensões de 64 (8 x 8 imagens) para 2. Em seguida, tivemos que agrupar os dígitos usando um Modelo de Mistura Gaussiana. O PCA que usa apenas dois componentes principais não produz clusters …

34 classification clustering pca dimensionality-reduction tsne

3

Como interpretar o decréscimo médio na precisão e o decréscimo médio GINI nos modelos de floresta aleatória

Estou tendo alguma dificuldade em entender como interpretar a saída de importância variável do pacote Random Forest. A diminuição média na precisão é geralmente descrita como "a diminuição na precisão do modelo ao permutar os valores em cada recurso". É uma declaração sobre o recurso como um todo ou sobre …

34 r machine-learning classification random-forest

3

Por que existe uma diferença entre calcular manualmente um intervalo de confiança de 95% da regressão logística e usar a função confint () em R?

Caro pessoal, notei algo estranho que não sei explicar, não é? Em resumo: a abordagem manual para calcular um intervalo de confiança em um modelo de regressão logística e a função R confint()fornecem resultados diferentes. Eu tenho passado pela regressão logística aplicada de Hosmer & Lemeshow (2ª edição). No terceiro …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

3

O que se entende por 'aprendiz fraco'?

Alguém pode me dizer o que significa a frase "aprendiz fraco"? É suposto ser uma hipótese fraca? Estou confuso sobre a relação entre um aprendiz fraco e um classificador fraco. Os dois são iguais ou há alguma diferença? No algoritmo adaboost T=10,. O que isso significa? Por que nós selecionamos …

34 classification svm terminology adaboost pac-learning

4

Implementação de CRF em python

Existe uma implementação popular de campos aleatórios condicionais em Python ? Não consigo encontrar nenhum que seja amplamente usado e popular!

32 machine-learning classification python conditional-random-field

6

Classificação estatística do texto

Sou programador sem formação estatística e atualmente estou procurando métodos de classificação diferentes para um grande número de documentos diferentes que quero classificar em categorias predefinidas. Eu tenho lido sobre kNN, SVM e NN. No entanto, tenho alguns problemas para começar. Quais recursos você recomenda? Eu sei muito bem o …

32 classification information-retrieval text-mining

Perguntas com a marcação «classification»