Ciência de dados

Perguntas e respostas para profissionais de ciência de dados, especialistas em aprendizado de máquina e interessados ​​em aprender mais sobre o campo

4
A engenharia de recursos ainda é útil ao usar o XGBoost?
Eu estava lendo o material relacionado ao XGBoost. Parece que esse método não requer escala variável, pois é baseado em árvores e pode capturar interações complexas de padrões de não linearidade. E ele pode lidar com variáveis ​​numéricas e categóricas e também parece que variáveis ​​redundantes não afetam muito esse …

2
Como treinar o modelo para prever eventos 30 minutos antes, a partir de séries temporais multidimensionais
Especialistas da minha área são capazes de prever a probabilidade de um evento (pico binário em amarelo) 30 minutos antes da ocorrência . A frequência aqui é de 1 segundo; essa visão representa algumas horas de dados; circulei em preto onde deveria estar o padrão "malicioso" . Existem interações entre …



1
Calcular semelhança de cosseno no Apache Spark
Eu tenho um DataFrame com IDF de determinadas palavras computadas. Por exemplo (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Agora, faça uma consulta Q, posso calcular o TF-IDF dessa consulta. Como faço para calcular a semelhança de cosseno da consulta com todos os documentos no quadro de dados (há quase um …





1
Por que a reconstrução em auto-codificadores está usando a mesma função de ativação que a ativação direta e não a inversa?
Suponha que você tenha uma camada de entrada com n neurônios e a primeira camada oculta possua neurônios, normalmente . Então você calcula a acticação do neurônio na camada oculta pormmmm&lt;nm&lt;nm < najaja_jjjj aj=f(∑i=1..nwi,jxi+bj)aj=f(∑i=1..nwi,jxi+bj)a_j = f\left(\sum\limits_{i=1..n} w_{i,j} x_i+b_j\right) , em que é uma função de ativação como ou .ffftanhtanh\tanhsigmoidsigmoid\text{sigmoid} Para …

2
Etapas de aprendizado de máquina
Qual das opções abaixo é a correta ao criar um modelo preditivo? Opção 1: Primeiro, elimine os preditores obviamente mais ruins e pré-processe os demais, se necessário, treine vários modelos com validação cruzada, escolha os poucos melhores, identifique os principais preditores que cada um usou, depois treine novamente esses modelos …

2
Tamanho proibitivo de floresta aleatória quando salvo em disco
Quando salva em disco usando o cPickle: /programming/20662023/save-python-random-forest-model-to-file , minha floresta aleatória tem 6,57 GB. with open('rforest.cpickle', 'wb') as f: cPickle.dump(rforest, f) Quero usar a própria floresta para fazer previsões por meio de uma API python hospedada no Heroku - é claro, esse tamanho de arquivo é inaceitável. Por que …




Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.