Ciência de dados python

2

Onde no fluxo de trabalho devemos lidar com dados ausentes?

Estou construindo um fluxo de trabalho para criar modelos de aprendizado de máquina (no meu caso, usando Python pandase sklearnpacotes) a partir de dados extraídos de um banco de dados muito grande (aqui, Vertica por meio de SQL e pyodbc), e uma etapa crítica nesse processo envolve a imputação de …

16 machine-learning python pandas scikit-learn

2

Recomendação de filmes com recursos adicionais usando filtragem colaborativa

Estou tentando criar um sistema de recomendação usando filtragem colaborativa. Eu tenho as [user, movie, rating]informações usuais . Gostaria de incorporar um recurso adicional, como 'idioma' ou 'duração do filme'. Não tenho certeza de quais técnicas eu poderia usar para esse problema. Por favor, sugira referências ou pacotes em python …

16 python r recommender-system

4

Biblioteca Python para regressão segmentada (também conhecida como regressão por partes)

Estou procurando uma biblioteca Python que possa executar regressão segmentada (também conhecida como regressão por partes) . Exemplo :

16 python linear-regression library software-recommendation

3

Classificação discriminatória de uma classe com fundo negativo desequilibrado e heterogêneo?

Estou trabalhando para melhorar um classificador supervisionado existente, para classificar sequências {protein} como pertencentes a uma classe específica (precursores do hormônio neuropeptídeo) ou não. Existem cerca de 1.150 "positivos" conhecidos, num contexto de cerca de 13 milhões de seqüências de proteínas ("fundo desconhecido / pouco anotado") ou cerca de 100.000 …

16 machine-learning data-mining python classification

6

Qual é o motivo por trás da transformação de log de poucas variáveis contínuas?

Estou com um problema de classificação e li o código e os tutoriais de muitas pessoas. Uma coisa que eu notei é que muitas pessoas tomam np.logou logde variável contínua como loan_amountou applicant_incomeetc. Eu só quero entender a razão por trás disso. Isso ajuda a melhorar a precisão da previsão …

16 machine-learning python classification scikit-learn

5

aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Como obter previsões com o forecast_generator no streaming de dados de teste no Keras?

No blog Keras sobre convnets de treinamento do zero , o código mostra apenas a rede em execução nos dados de treinamento e validação. E os dados de teste? Os dados de validação são os mesmos que os dados de teste (acho que não). Se havia uma pasta de teste …

16 machine-learning python deep-learning keras confusion-matrix

8

Como contar o número de valores ausentes em cada linha no dataframe do Pandas?

Como posso obter o número de valores ausentes em cada linha no dataframe do Pandas. Gostaria de dividir o quadro de dados em diferentes quadros de dados que tenham o mesmo número de valores ausentes em cada linha. Alguma sugestão?

16 python pandas

5

Biblioteca Python para implementar modelos ocultos de Markov

Que biblioteca Python estável posso usar para implementar modelos de Markov ocultos? Eu preciso que ele esteja razoavelmente bem documentado, porque eu nunca usei esse modelo antes. Como alternativa, existe uma abordagem mais direta para executar uma análise de séries temporais em um conjunto de dados usando o HMM?

15 python time-series markov-process

5

Previsão de similaridade de sentença

Estou procurando resolver o seguinte problema: Eu tenho um conjunto de frases como meu conjunto de dados e desejo poder digitar uma nova frase e encontrar a frase em que a nova é a mais semelhante no conjunto de dados. Um exemplo seria semelhante a: Nova frase: " I opened …

15 python nlp scikit-learn similarity text

4

Os pandas agora são mais rápidos que o data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Os benchmarks data.table não são atualizados desde 2014. Ouvi dizer que Pandasagora é mais rápido do que data.table. Isso é verdade? Alguém já fez benchmarks? Eu nunca usei Python antes, mas consideraria mudar se pandaspode vencer data.table?

15 python r pandas data data.table

2

Como o SelectKBest funciona?

Estou olhando para este tutorial: https://www.dataquest.io/mission/75/improving-your-submission Na seção 8, encontrando os melhores recursos, mostra o código a seguir. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # …

15 python scikit-learn

1

A amostragem estratificada é necessária (floresta aleatória, Python)?

Eu uso o Python para executar um modelo de floresta aleatório no meu conjunto de dados desequilibrado (a variável de destino era uma classe binária). Ao dividir o conjunto de dados de treinamento e teste, lutei para usar a amostragem estratificada (como o código mostrado) ou não. Até agora, observei …

14 machine-learning python random-forest sampling training

2

Modelo de classificação binária para dados desequilibrados

Eu tenho um conjunto de dados com as seguintes especificações: Conjunto de dados de treinamento com 193.176 amostras com 2.821 positivos Conjunto de dados de teste com 82.887 amostras com 673 positivos Existem 10 recursos. Eu quero realizar uma classificação binária (0 ou 1). O problema que estou enfrentando é …

14 machine-learning python classification logistic-regression

5

As modernas bibliotecas R e / ou Python tornam o SQL obsoleto?

Eu trabalho em um escritório onde o SQL Server é a espinha dorsal de tudo o que fazemos, desde o processamento de dados até a limpeza e a substituição. Meu colega é especialista em escrever funções complexas e procedimentos armazenados para processar metodicamente os dados recebidos, para que possam ser …

14 python r data-cleaning data sql

Perguntas com a marcação «python»