Ciência de dados scikit-learn

2

Você pode explicar a diferença entre SVC e LinearSVC no scikit-learn?

Recentemente, comecei a aprender a trabalhar sklearne acabei de encontrar esse resultado peculiar. Usei o digitsconjunto de dados disponível sklearnpara experimentar diferentes modelos e métodos de estimativa. Quando testei um modelo de máquina de vetor de suporte nos dados, descobri que existem duas classes diferentes sklearnpara a classificação SVM: SVCe …

19 svm scikit-learn

1

Como lidar com rótulos de string na classificação de várias classes com keras?

Eu sou novato em aprendizado de máquina e keras e agora estou trabalhando em um problema de classificação de imagem com várias classes usando keras. A entrada é marcada como imagem. Após algum pré-processamento, os dados de treinamento são representados na lista Python como: [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] o …

18 machine-learning scikit-learn tensorflow keras encoding

4

Melhore a velocidade da implementação do t-sne em python para obter grandes dados

Eu gostaria de fazer uma redução de dimensionalidade em quase 1 milhão de vetores, cada um com 200 dimensões ( doc2vec). Estou usando a TSNEimplementação do sklearn.manifoldmódulo para ele e o grande problema é a complexidade do tempo. Mesmo com method = barnes_hut, a velocidade da computação ainda é baixa. …

18 python bigdata nlp scikit-learn dimensionality-reduction

1

Algoritmos para agrupamento de texto

Eu tenho um problema de agrupar uma quantidade enorme de frases em grupos por seus significados. Isso é semelhante a um problema quando você tem muitas frases e deseja agrupá-las por seus significados. Quais algoritmos são sugeridos para fazer isso? Não conheço o número de clusters com antecedência (e, à …

17 clustering text-mining algorithms scikit-learn

5

Mesclando dados esparsos e densos no aprendizado de máquina para melhorar o desempenho

Eu tenho características esparsas que são preditivas, também tenho algumas características densas que também são preditivas. Preciso combinar esses recursos para melhorar o desempenho geral do classificador. Agora, quando tento combiná-los, os recursos densos tendem a dominar mais sobre os recursos esparsos, oferecendo, portanto, apenas 1% de melhoria na AUC …

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

2

Onde no fluxo de trabalho devemos lidar com dados ausentes?

Estou construindo um fluxo de trabalho para criar modelos de aprendizado de máquina (no meu caso, usando Python pandase sklearnpacotes) a partir de dados extraídos de um banco de dados muito grande (aqui, Vertica por meio de SQL e pyodbc), e uma etapa crítica nesse processo envolve a imputação de …

16 machine-learning python pandas scikit-learn

6

Qual é o motivo por trás da transformação de log de poucas variáveis contínuas?

Estou com um problema de classificação e li o código e os tutoriais de muitas pessoas. Uma coisa que eu notei é que muitas pessoas tomam np.logou logde variável contínua como loan_amountou applicant_incomeetc. Eu só quero entender a razão por trás disso. Isso ajuda a melhorar a precisão da previsão …

16 machine-learning python classification scikit-learn

5

aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

Previsão de similaridade de sentença

Estou procurando resolver o seguinte problema: Eu tenho um conjunto de frases como meu conjunto de dados e desejo poder digitar uma nova frase e encontrar a frase em que a nova é a mais semelhante no conjunto de dados. Um exemplo seria semelhante a: Nova frase: " I opened …

15 python nlp scikit-learn similarity text

1

Método de pontuação RandomForestClassifier OOB

A implementação da floresta aleatória no scikit-learn está usando a precisão média como método de pontuação para estimar o erro de generalização com amostras prontas para uso? Isso não é mencionado na documentação, mas o método score () relata a precisão média. Eu tenho um conjunto de dados altamente desequilibrado …

15 random-forest scikit-learn

2

Como o SelectKBest funciona?

Estou olhando para este tutorial: https://www.dataquest.io/mission/75/improving-your-submission Na seção 8, encontrando os melhores recursos, mostra o código a seguir. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # …

15 python scikit-learn

3

Como posso verificar a correlação entre os recursos e a variável de destino?

Estou tentando criar um Regressionmodelo e estou procurando uma maneira de verificar se há alguma correlação entre recursos e variáveis de destino? Esta é a minha amostra dataset Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\ 0 LP001002 Male No 0 Graduate No 5849 1 LP001003 Male Yes 1 Graduate No …

15 machine-learning scikit-learn regression linear-regression

3

Pandas Dataframe para DMatrix

Estou tentando executar o xgboost no scikit learn. E eu só uso o Pandas para carregar dados no dataframe. Como eu devo usar pandas df com xgboost. Estou confuso com a rotina do DMatrix necessária para executar o xgboost algo.

14 scikit-learn pandas xgboost

1

Importância do recurso com recursos categóricos de alta cardinalidade para regressão (variável dependente numérica)

Eu estava tentando usar as importâncias de recursos da Random Forests para executar alguma seleção empírica de recursos para um problema de regressão em que todos os recursos são categóricos e muitos deles têm muitos níveis (da ordem de 100-1000). Dado que a codificação one-hot cria uma variável dummy para …

12 scikit-learn feature-selection random-forest xgboost categorical-data

3

Colunas categóricas de conversão em massa no Pandas (não codificação one-hot)

Eu tenho um dataframe de pandas com toneladas de colunas categóricas, que planejo usar na árvore de decisão com o scikit-learn. Eu preciso convertê-los em valores numéricos (não um vetores quentes). Eu posso fazer isso com o LabelEncoder do scikit-learn. O problema é que existem muitos deles e não quero …

12 scikit-learn pandas categorical-data labels

Perguntas com a marcação «scikit-learn»