Estatísticas e Big Data classification

1

Como o LDA, uma técnica de classificação, também serve como técnica de redução de dimensionalidade como o PCA

Neste artigo , o autor vincula a análise discriminante linear (LDA) à análise de componentes principais (PCA). Com meu conhecimento limitado, não sou capaz de acompanhar como o LDA pode ser um pouco semelhante ao PCA. Eu sempre pensei que o LDA era uma forma de algoritmo de classificação, semelhante …

19 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

2

A floresta aleatória está super ajustada?

Estou experimentando florestas aleatórias com o scikit-learn e estou obtendo ótimos resultados do meu conjunto de treinamento, mas resultados relativamente ruins no meu conjunto de testes ... Aqui está o problema (inspirado no poker) que estou tentando resolver: Dadas as cartas do jogador A, as cartas do jogador B e …

19 classification random-forest scikit-learn

3

Aprendizagem semi-supervisionada, aprendizagem ativa e aprendizagem profunda para classificação

Edição final com todos os recursos atualizados: Para um projeto, estou aplicando algoritmos de aprendizado de máquina para classificação. Desafio: dados rotulados bastante limitados e muito mais dados não rotulados. Metas: Aplicar classificação semi-supervisionada Aplique um processo de rotulagem semi-supervisionado (conhecido como aprendizado ativo) Encontrei muitas informações de trabalhos de …

19 machine-learning classification software svm text-mining

7

Dados tendenciosos no aprendizado de máquina

Estou trabalhando em um projeto de Machine Learning com dados que já são (fortemente) influenciados pela seleção de dados. Vamos supor que você tenha um conjunto de regras codificadas. Como você cria um modelo de aprendizado de máquina para substituí-lo, quando todos os dados que ele pode usar são dados …

18 machine-learning classification data-mining bias extrapolation

1

Opiniões sobre o excesso de amostragem em geral e o algoritmo SMOTE em particular [fechado]

Fechado . Esta questão é baseada em opiniões . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela possa ser respondida com fatos e citações editando esta postagem . Fechado há 2 anos . Qual a sua opinião sobre o excesso de amostragem …

18 machine-learning classification oversampling

5

Classificação de texto em grande escala

Estou procurando fazer uma classificação nos meus dados de texto. Tenho 300 classes200 documentos de treinamento por turma (mais ou menos 60000 documents in total) e é provável que isso resulte em dados dimensionais muito altos (podemos estar olhando além das dimensões de 1 milhão ). Gostaria de executar as …

18 machine-learning classification text-mining

10

Conjuntos de dados de redes sociais

Bloqueado . Esta pergunta e suas respostas estão bloqueadas porque a questão está fora do tópico, mas tem um significado histórico. No momento, não está aceitando novas respostas ou interações. Estou procurando conjuntos de dados de redes sociais (twitter, friendfeed, facebook, lastfm etc.) para tarefas de classificação, de preferência no …

18 classification dataset

3

Construir um classificador multiclasse é melhor que vários binários?

Preciso classificar os URLs em categorias. Digamos que eu tenho 15 categorias nas quais planejo zerar cada URL. Um classificador de 15 vias é melhor? Onde eu tenho 15 rótulos e gero recursos para cada ponto de dados. Ou construindo 15 classificadores binários, digamos: Filme ou Não Filme, e use …

18 machine-learning classification categorical-data svm feature-selection

2

Classificação de teste em dados de desequilíbrio superamostrados

Estou trabalhando em dados gravemente desequilibrados. Na literatura, vários métodos são utilizados para reequilibrar os dados usando re-amostragem (super ou sub-amostragem). Duas boas abordagens são: SMOTE: Técnica de sobre-amostragem de minorias sintéticas ( SMOTE ) ADASYN: Abordagem de Amostra Sintética Adaptativa para Aprendizagem Desequilibrada ( ADASYN ) Eu implementei o …

18 classification dataset resampling unbalanced-classes oversampling

1

Quiz: Informe ao classificador por seu limite de decisão

Dado são os 6 limites de decisão abaixo. Os limites da decisão são linhas violetas. Pontos e cruzamentos são dois conjuntos de dados diferentes. Temos que decidir qual deles é: SVM linear SVM kernelizado (kernel polinomial da ordem 2) Perceptron Regressão logística Rede Neural (1 camada oculta com 10 unidades …

17 machine-learning self-study classification neural-networks svm

3

Quando não devo usar um classificador de conjunto?

Em geral, em um problema de classificação em que o objetivo é prever com precisão a associação de classe fora da amostra, quando não devo usar um classificador de conjunto? Esta questão está intimamente relacionada a: Por que nem sempre usar a aprendizagem por conjuntos? . Essa pergunta pergunta por …

17 classification boosting ensemble bagging

1

Quando o Naive Bayes tem um desempenho melhor que o SVM?

Em um pequeno problema de classificação de texto que eu estava olhando, o Naive Bayes exibia um desempenho semelhante ou superior a um SVM e fiquei muito confuso. Eu queria saber quais fatores decidem o triunfo de um algoritmo sobre o outro. Existem situações em que não faz sentido usar …

17 machine-learning classification svm naive-bayes

1

Quero criar um índice de criminalidade e de instabilidade política com base em notícias

Eu tenho esse projeto paralelo onde rastreio os sites de notícias locais do meu país e quero criar um índice de criminalidade e um índice de instabilidade política. Já abordei a parte de recuperação de informações do projeto. Meu plano é fazer: Extração de tópicos não supervisionados. Detecção de duplicatas …

17 machine-learning classification text-mining

3

Comparando dois resultados de precisão do classificador para significância estatística com o teste t

Quero comparar a precisão de dois classificadores quanto à significância estatística. Ambos os classificadores são executados no mesmo conjunto de dados. Isso me leva a acreditar que eu deveria estar usando um teste t de uma amostra do que tenho lido . Por exemplo: Classifier 1: 51% accuracy Classifier 2: …

17 machine-learning statistical-significance classification t-test

2

Por que o classificador de regressão de cume funciona muito bem para a classificação de texto?

Durante um experimento para classificação de texto, eu encontrei o classificador de cume gerando resultados que constantemente superam os testes entre os classificadores que são mais comumente mencionados e aplicados para tarefas de mineração de texto, como SVM, NB, kNN, etc. Embora eu não tenha elaborado na otimização de cada …

17 machine-learning classification text-mining ridge-regression

Perguntas com a marcação «classification»