Perguntas com a marcação «classification»

A classificação estatística é o problema de identificar a subpopulação à qual novas observações pertencem, onde a identidade da subpopulação é desconhecida, com base em um conjunto de dados de treinamento contendo observações cuja subpopulação é conhecida. Portanto, essas classificações mostrarão um comportamento variável que pode ser estudado por estatísticas.



3
Aplique incorporações de palavras em todo o documento, para obter um vetor de recurso
Como uso uma incorporação de palavras para mapear um documento para um vetor de recurso, adequado para uso com aprendizado supervisionado? Uma incorporação de palavra mapeia cada palavra para um vetor , onde é um número não muito grande (por exemplo, 500). Os casamentos populares de palavras incluem word2vec e …

6
Melhore a classificação com muitas variáveis ​​categóricas
Estou trabalhando em um conjunto de dados com mais de 200.000 amostras e aproximadamente 50 recursos por amostra: 10 variáveis ​​contínuas e as outras ~ 40 são variáveis ​​categóricas (países, idiomas, campos científicos etc.). Para essas variáveis ​​categóricas, você tem, por exemplo, 150 países diferentes, 50 idiomas, 50 campos científicos, …

3
SVM, sobreajuste, maldição da dimensionalidade
Meu conjunto de dados é pequeno (120 amostras), no entanto, o número de recursos é grande varia de (1000 a 200.000). Embora eu esteja fazendo a seleção de recursos para escolher um subconjunto de recursos, ele ainda pode se ajustar demais. Minha primeira pergunta é: como o SVM lida com …


3
PCA e a divisão trem / teste
Eu tenho um conjunto de dados para o qual tenho vários conjuntos de rótulos binários. Para cada conjunto de rótulos, treino um classificador, avaliando-o por validação cruzada. Quero reduzir a dimensionalidade usando a análise de componentes principais (PCA). Minha pergunta é: É possível executar o PCA uma vez para todo …




3
Como interpretar o decréscimo médio na precisão e o decréscimo médio GINI nos modelos de floresta aleatória
Estou tendo alguma dificuldade em entender como interpretar a saída de importância variável do pacote Random Forest. A diminuição média na precisão é geralmente descrita como "a diminuição na precisão do modelo ao permutar os valores em cada recurso". É uma declaração sobre o recurso como um todo ou sobre …

3



6
Classificação estatística do texto
Sou programador sem formação estatística e atualmente estou procurando métodos de classificação diferentes para um grande número de documentos diferentes que quero classificar em categorias predefinidas. Eu tenho lido sobre kNN, SVM e NN. No entanto, tenho alguns problemas para começar. Quais recursos você recomenda? Eu sei muito bem o …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.