Ciência de dados

4

Número de épocas na implementação do Gensim Word2Vec

Há um iterparâmetro na gensimimplementação do Word2Vec classe gensim.models.word2vec.Word2Vec (sentenças = Nenhuma, tamanho = 100, alfa = 0,025, janela = 5, min_count = 5, max_vocab_size = None, amostra = 0, semente = 1, trabalhadores = 1, trabalhadores = 1, min_alpha = 0,0001, sg = 1, hs = 1, negativo = …

14 gensim word2vec convergence

3

Pandas Dataframe para DMatrix

Estou tentando executar o xgboost no scikit learn. E eu só uso o Pandas para carregar dados no dataframe. Como eu devo usar pandas df com xgboost. Estou confuso com a rotina do DMatrix necessária para executar o xgboost algo.

14 scikit-learn pandas xgboost

3

Como usar o LeakyRelu como função de ativação na sequência DNN em keras? Quando ele funciona melhor que o Relu?

Como você usa o LeakyRelu como uma função de ativação na sequência DNN em keras? Se eu quiser escrever algo parecido com: model = Sequential() model.add(Dense(90, activation='LeakyRelu')) Qual é a solução? Coloque LeakyRelu semelhante a Relu? A segunda pergunta é: qual é a melhor configuração geral para ajustar os parâmetros …

14 deep-learning keras activation-function

5

Upload de pasta de imagens do meu sistema para o Google Colab

Quero treinar um modelo de aprendizado profundo em um conjunto de dados contendo cerca de 3000 imagens. Como o conjunto de dados é enorme, quero usar o Google colab, pois é compatível com GPU. Como faço para carregar esta pasta de imagem completa no meu notebook e usá-la?

14 machine-learning neural-network deep-learning dataset colab

2

Por que os algoritmos genéticos não são usados para otimizar redes neurais?

Pelo meu entendimento, os algoritmos genéticos são ferramentas poderosas para otimização multiobjetivo. Além disso, o treinamento de redes neurais (especialmente as profundas) é difícil e tem muitos problemas (funções de custo não convexas - mínimos locais, gradientes de fuga e explosão etc.). Também sou conceitualmente que treinar um NN com …

13 neural-network optimization genetic-algorithms

4

O Gradient Descent é central para todos os otimizadores?

Quero saber se a descida de gradiente é o principal algoritmo usado em otimizadores como Adam, Adagrad, RMSProp e vários outros otimizadores.

13 machine-learning neural-network deep-learning optimization gradient-descent

2

Por que nem sempre usar a técnica de otimização do ADAM?

Parece que o otimizador Adaptive Moment Estimation (Adam) quase sempre funciona melhor (atingindo um mínimo global mais rápido e confiável) ao minimizar a função de custo no treinamento de redes neurais. Por que nem sempre usa Adam? Por que se preocupar em usar o RMSProp ou otimizadores de momento?

13 neural-network optimization

1

Quantos recursos para amostra usando florestas aleatórias

A página da Wikipedia que cita "Os elementos do aprendizado estatístico" diz: Normalmente, para um problema de classificação com os recursos , os recursos são usados em cada divisão.ppp⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Entendo que esse é um palpite bastante bom e provavelmente foi confirmado por evidências empíricas, mas existem outras razões …

13 statistics random-forest optimization evaluation sampling

1

XGBRegressor vs. xgboost.train diferença de velocidade enorme?

Se eu treinar meu modelo usando o seguinte código: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) termina em cerca de 1 minuto. Se eu treinar meu modelo usando …

13 machine-learning python decision-trees xgboost efficiency

1

Como lidar com um fator zero no cálculo do Naive Bayes Classifier?

Se eu tiver um conjunto de dados de treinamento e treinar um Classificador Naive Bayes nele, e tiver um valor de atributo com probabilidade zero. Como faço para lidar com isso se mais tarde desejar prever a classificação em novos dados? O problema é que, se houver um zero no …

13 classification naive-bayes-classifier

1

Converter uma coluna de pandas de int em timestamp datatype

Eu tenho um quadro de dados que, entre outras coisas, contém uma coluna do número de milissegundos passados desde 1970-1-1. Preciso converter essa coluna de ints em dados de registro de data e hora, para poder convertê-lo em uma coluna de dados de data e hora adicionando a série de …

13 python time-series data-cleaning pandas

1

Mapa de calor em um mapa em Python

O Mode Analytics possui um bom recurso de mapa de calor ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Mas não é propício para comparar mapas (apenas um por relatório). O que eles permitem é que os dados sejam facilmente puxados para um notebook python empacotado. E qualquer imagem em python pode ser facilmente adicionada …

13 python visualization geospatial

1

Propagação de retorno através de camadas máximas de pool

Eu tenho uma pequena sub-pergunta a esta pergunta . Entendo que, quando se propaga de volta através de uma camada de pool máximo, o gradiente é roteado de volta de uma maneira que o neurônio na camada anterior, que foi selecionada como max, obtém todo o gradiente. O que eu …

13 machine-learning neural-network convnet backpropagation

5

Importância do recurso com a floresta aleatória scikit-learn mostra desvio padrão muito alto

Estou usando o Classificador Aleatório de Floresta scikit-learn e quero plotar a importância do recurso, como neste exemplo . No entanto, meu resultado é completamente diferente, no sentido de que o desvio padrão da importância da característica é quase sempre maior do que a própria importância da característica (ver imagem …

13 python random-forest

1

Reconhecer uma gramática em uma sequência de tokens difusos

Tenho documentos de texto que contêm principalmente listas de itens. Cada item é um grupo de vários tokens de diferentes tipos: nome, sobrenome, data de nascimento, número de telefone, cidade, ocupação etc. Um token é um grupo de palavras. Os itens podem estar em várias linhas. Os itens de um …

13 data-mining clustering text-mining time-series correlation