Ciência de dados

Perguntas e respostas para profissionais de ciência de dados, especialistas em aprendizado de máquina e interessados ​​em aprender mais sobre o campo

5
Previsão de similaridade de sentença
Estou procurando resolver o seguinte problema: Eu tenho um conjunto de frases como meu conjunto de dados e desejo poder digitar uma nova frase e encontrar a frase em que a nova é a mais semelhante no conjunto de dados. Um exemplo seria semelhante a: Nova frase: " I opened …

2
Agrupando visitantes únicos por useragent, ip, session_id
Dados os dados de acesso ao site no formulário session_id, ip, user_agente, opcionalmente, o carimbo de data / hora, seguindo as condições abaixo, como você agruparia melhor as sessões em visitantes únicos? session_id: é um ID fornecido a cada novo visitante. Ele não expira; no entanto, se o usuário não …
15 clustering 

4
Os pandas agora são mais rápidos que o data.table?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Os benchmarks data.table não são atualizados desde 2014. Ouvi dizer que Pandasagora é mais rápido do que data.table. Isso é verdade? Alguém já fez benchmarks? Eu nunca usei Python antes, mas consideraria mudar se pandaspode vencer data.table?
15 python  r  pandas  data  data.table 

1
Método de pontuação RandomForestClassifier OOB
A implementação da floresta aleatória no scikit-learn está usando a precisão média como método de pontuação para estimar o erro de generalização com amostras prontas para uso? Isso não é mencionado na documentação, mas o método score () relata a precisão média. Eu tenho um conjunto de dados altamente desequilibrado …



2
Como o SelectKBest funciona?
Estou olhando para este tutorial: https://www.dataquest.io/mission/75/improving-your-submission Na seção 8, encontrando os melhores recursos, mostra o código a seguir. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # …



3
GANs (redes adversárias generativas) também são possíveis para texto?
Os GANs - redes adversárias generativas - são bons apenas para imagens ou também podem ser usados ​​para texto? Por exemplo, treine uma rede para gerar textos significativos a partir de um resumo. UPD - citações do inventor da GAN Ian Goodfellow. Os GANs não foram aplicados à PNL porque …
14 gan 

1
PyTorch vs. Tensorflow ansioso
O Google recentemente incluído no noturno do tensorflow constrói seu modo Eager , uma API imperativa para acessar os recursos de computação do tensorflow. Como o tensorflow se compara ao PyTorch? Alguns aspectos que podem afetar a comparação podem ser: Vantagens e desvantagens do ansioso devido ao seu legado de …


4
Podemos gerar um enorme conjunto de dados com redes adversas generativas
Estou lidando com um problema em que não consegui encontrar conjuntos de dados (imagens) suficientes para alimentar minha rede neural profunda para treinamento. Fiquei muito inspirado no artigo Generative Adversarial Text to Image Synthesis publicado por Scott Reed et al. em redes adversas generativas. Fiquei curioso em saber que posso …



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.