Ciência de dados

5

Estou procurando resolver o seguinte problema: Eu tenho um conjunto de frases como meu conjunto de dados e desejo poder digitar uma nova frase e encontrar a frase em que a nova é a mais semelhante no conjunto de dados. Um exemplo seria semelhante a: Nova frase: " I opened …

15 python nlp scikit-learn similarity text

2

Agrupando visitantes únicos por useragent, ip, session_id

Dados os dados de acesso ao site no formulário session_id, ip, user_agente, opcionalmente, o carimbo de data / hora, seguindo as condições abaixo, como você agruparia melhor as sessões em visitantes únicos? session_id: é um ID fornecido a cada novo visitante. Ele não expira; no entanto, se o usuário não …

15 clustering

4

Os pandas agora são mais rápidos que o data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Os benchmarks data.table não são atualizados desde 2014. Ouvi dizer que Pandasagora é mais rápido do que data.table. Isso é verdade? Alguém já fez benchmarks? Eu nunca usei Python antes, mas consideraria mudar se pandaspode vencer data.table?

15 python r pandas data data.table

1

Método de pontuação RandomForestClassifier OOB

A implementação da floresta aleatória no scikit-learn está usando a precisão média como método de pontuação para estimar o erro de generalização com amostras prontas para uso? Isso não é mencionado na documentação, mas o método score () relata a precisão média. Eu tenho um conjunto de dados altamente desequilibrado …

15 random-forest scikit-learn

2

Ciência de dados sem o conhecimento de um tópico específico, vale a pena seguir como carreira? [fechadas]

Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico do Data Science Stack Exchange. Fechado há 5 anos . Recentemente, tive uma conversa com alguém e mencionei meu interesse na análise de …

15 education beginner career

4

Como dimensionar uma matriz de números inteiros assinados para variar de 0 a 1?

Estou usando o Brain para treinar uma rede neural em um conjunto de recursos que inclui valores positivos e negativos. Mas o Brain requer valores de entrada entre 0 e 1. Qual é a melhor maneira de normalizar meus dados?

15 machine-learning neural-network feature-scaling normalization javascript

2

Como o SelectKBest funciona?

Estou olhando para este tutorial: https://www.dataquest.io/mission/75/improving-your-submission Na seção 8, encontrando os melhores recursos, mostra o código a seguir. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # …

15 python scikit-learn

4

As saídas XGBoost tendem para os extremos

Atualmente, estou usando o XGBoost para previsão de riscos, parece estar fazendo um bom trabalho no departamento de classificação binária, mas as saídas de probabilidade estão muito longe, ou seja, alterar o valor de um recurso em uma observação em uma quantidade muito pequena pode aumentar a probabilidade salto de …

15 machine-learning classification xgboost probability probability-calibration

3

Como posso verificar a correlação entre os recursos e a variável de destino?

Estou tentando criar um Regressionmodelo e estou procurando uma maneira de verificar se há alguma correlação entre recursos e variáveis de destino? Esta é a minha amostra dataset Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\ 0 LP001002 Male No 0 Graduate No 5849 1 LP001003 Male Yes 1 Graduate No …

15 machine-learning scikit-learn regression linear-regression

3

GANs (redes adversárias generativas) também são possíveis para texto?

Os GANs - redes adversárias generativas - são bons apenas para imagens ou também podem ser usados para texto? Por exemplo, treine uma rede para gerar textos significativos a partir de um resumo. UPD - citações do inventor da GAN Ian Goodfellow. Os GANs não foram aplicados à PNL porque …

14 gan

1

PyTorch vs. Tensorflow ansioso

O Google recentemente incluído no noturno do tensorflow constrói seu modo Eager , uma API imperativa para acessar os recursos de computação do tensorflow. Como o tensorflow se compara ao PyTorch? Alguns aspectos que podem afetar a comparação podem ser: Vantagens e desvantagens do ansioso devido ao seu legado de …

14 deep-learning tensorflow pytorch

1

A amostragem estratificada é necessária (floresta aleatória, Python)?

Eu uso o Python para executar um modelo de floresta aleatório no meu conjunto de dados desequilibrado (a variável de destino era uma classe binária). Ao dividir o conjunto de dados de treinamento e teste, lutei para usar a amostragem estratificada (como o código mostrado) ou não. Até agora, observei …

14 machine-learning python random-forest sampling training

4

Podemos gerar um enorme conjunto de dados com redes adversas generativas

Estou lidando com um problema em que não consegui encontrar conjuntos de dados (imagens) suficientes para alimentar minha rede neural profunda para treinamento. Fiquei muito inspirado no artigo Generative Adversarial Text to Image Synthesis publicado por Scott Reed et al. em redes adversas generativas. Fiquei curioso em saber que posso …

14 deep-learning gan

3

Por que os conjuntos são tão irracionalmente eficazes

Parece ter se tornado axiomático que um conjunto de alunos leve aos melhores resultados possíveis de modelos - e está se tornando muito mais raro, por exemplo, modelos únicos ganharem competições como o Kaggle. Existe uma explicação teórica para o porquê dos conjuntos serem tão efetivamente eficazes?

14 machine-learning data-mining predictive-modeling

1

Os pontos mais próximos podem ser considerados mais semelhantes na visualização do T-SNE?

Entendo pelo artigo de Hinton que o T-SNE faz um bom trabalho em manter as semelhanças locais e um trabalho decente em preservar a estrutura global (clusterização). No entanto, não estou claro se os pontos que aparecem mais próximos em uma visualização t-sne 2D podem ser assumidos como pontos de …

14 visualization dimensionality-reduction tsne manifold