Perguntas com a marcação «bigdata»

Big data é o termo para uma coleção de conjuntos de dados tão grandes e complexos que fica difícil processar usando ferramentas de gerenciamento de banco de dados disponíveis ou aplicativos tradicionais de processamento de dados. Os desafios incluem captura, curadoria, armazenamento, pesquisa, compartilhamento, transferência, análise e visualização.


4
Estudo de caso de big data ou exemplo de caso de uso
Eu li muitos artigos de blogs sobre como diferentes tipos de indústrias estão usando o Big Data Analytic. Mas a maioria desses artigos não menciona Que tipo de dados essas empresas usaram. Qual foi o tamanho dos dados Que tipo de tecnologias de ferramentas eles usaram para processar os dados …


8
O Python é adequado para big data
Eu li neste post. A linguagem R é adequada para Big Data que o big data constitui 5TBe, embora faça um bom trabalho em fornecer informações sobre a viabilidade de trabalhar com esse tipo de dados R, fornece muito pouca informação sobre Python. Fiquei me perguntando se Pythonpode trabalhar com …
13 bigdata  python 

7
O que é um 'nome antigo' de cientista de dados?
Termos como 'ciência de dados' e 'cientista de dados' são cada vez mais usados ​​atualmente. Muitas empresas estão contratando 'cientista de dados'. Mas não acho que seja um trabalho completamente novo. Os dados existiram no passado e alguém teve que lidar com dados. Eu acho que o termo 'cientista de …
12 bigdata 

2
Algoritmo de correspondência de preferências
Há um projeto paralelo no qual estou trabalhando, onde preciso estruturar uma solução para o seguinte problema. Eu tenho dois grupos de pessoas (clientes). O grupo Apretende comprar e o grupo Bpretende vender um determinado produto X. O produto tem uma série de atributos x_i, e meu objetivo é facilitar …

2
Trocas entre Storm e Hadoop (MapReduce)
Alguém pode me informar sobre as compensações envolvidas na escolha entre o Storm e o MapReduce no Hadoop Cluster para processamento de dados? Obviamente, além do óbvio, o Hadoop (processamento via MapReduce em um Hadoop Cluster) é um sistema de processamento em lote e o Storm é um sistema de …


1
Quantas células LSTM devo usar?
Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of time steps n - length of input …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


4
Trabalhando com Clusters HPC
Na minha universidade, temos um cluster de computação HPC. Eu uso o cluster para treinar classificadores e assim por diante. Portanto, geralmente, para enviar um trabalho para o cluster (por exemplo, script python scikit-learn), preciso escrever um script Bash que contenha (entre outros) um comando como qsub script.py. No entanto, …

3
Melhores idiomas para computação científica [fechado]
Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 5 anos . Parece que a maioria das línguas tem algum número de …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


2
Detecção de outlier / anomalia escalável
Estou tentando configurar uma infraestrutura de big data usando Hadoop, Hive, Elastic Search (entre outros) e gostaria de executar alguns algoritmos em determinados conjuntos de dados. Eu gostaria que os algoritmos fossem escalonáveis, então isso exclui o uso de ferramentas como Weka, R ou RHadoop. A Biblioteca Apache Mahout parece …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.