Ciência de dados

Perguntas e respostas para profissionais de ciência de dados, especialistas em aprendizado de máquina e interessados ​​em aprender mais sobre o campo

2
Trocas entre Storm e Hadoop (MapReduce)
Alguém pode me informar sobre as compensações envolvidas na escolha entre o Storm e o MapReduce no Hadoop Cluster para processamento de dados? Obviamente, além do óbvio, o Hadoop (processamento via MapReduce em um Hadoop Cluster) é um sistema de processamento em lote e o Storm é um sistema de …

3
Instâncias vs. núcleos ao usar o EC2
Trabalhando no que geralmente pode ser chamado de projetos de "dados médios", consegui paralelizar meu código (principalmente para modelagem e previsão em Python) em um único sistema, em qualquer lugar de 4 a 32 núcleos. Agora, estou analisando o dimensionamento de clusters no EC2 (provavelmente com StarCluster / IPython, mas …
12 parallel  clusters  aws 

2
Uma rede neural pode calcular
No espírito da famosa piada Tensorflow Fizz Buzz e do problema XOr , comecei a pensar, se é possível projetar uma rede neural que implemente a função y= x2y=x2y = x^2 ? Dada alguma representação de um número (por exemplo, como um vetor em forma binária, para que esse número …

3
Existe uma regra geral para o design de redes neurais?
Eu sei que uma arquitetura de rede neural é baseada principalmente no problema em si e nos tipos de entrada / saída, mas ainda assim - sempre existe um "quadrado" ao começar a construir um. Portanto, minha pergunta é - dado um conjunto de dados de entrada MxN (M é …


1
Importância do recurso com recursos categóricos de alta cardinalidade para regressão (variável dependente numérica)
Eu estava tentando usar as importâncias de recursos da Random Forests para executar alguma seleção empírica de recursos para um problema de regressão em que todos os recursos são categóricos e muitos deles têm muitos níveis (da ordem de 100-1000). Dado que a codificação one-hot cria uma variável dummy para …

4
Como saber que o modelo começou a sobreajuste?
Espero que os trechos a seguir forneçam uma ideia do que será minha pergunta. Estes são de http://neuralnetworksanddeeplearning.com/chap3.html O aprendizado então diminui gradualmente. Finalmente, por volta da época 280, a precisão da classificação praticamente para de melhorar. Épocas posteriores apenas veem pequenas flutuações estocásticas próximas ao valor da precisão na …




3
Função Tensorflow Adjusting Cost para dados desequilibrados
Eu tenho um problema de classificação com dados altamente desequilibrados. Li que a sobredimensionagem e a subamostragem, bem como a alteração do custo de resultados categóricos sub-representados, levarão a um melhor ajuste. Antes disso, o tensorflow categorizava cada entrada como o grupo majoritário (e ganha mais de 90% de precisão, …

3
Precisa de ajuda para entender a proposta aproximada de pontos de divisão do xgboost
fundo: em xgboost os tentativas de iteração para caber uma árvore f t sobre todos os n exemplos que minimiza o seguinte objectivo:tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] onde são de primeira ordem e segunda derivadas de ordem mais nosso anterior melhor estimativa y (de iteração t - 1 ):gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, …
12 xgboost  gbm 




Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.