Ciência de dados bigdata

1

Quando um banco de dados relacional tem melhor desempenho do que um não relacional

Quando um banco de dados relacional, como o MySQL, tem melhor desempenho do que um não relacional, como o MongoDB? Outro dia vi uma pergunta no Quora, sobre por que o Quora ainda usa o MySQL como back-end e se o desempenho deles ainda é bom.

13 bigdata performance databases nosql

4

Estudo de caso de big data ou exemplo de caso de uso

Eu li muitos artigos de blogs sobre como diferentes tipos de indústrias estão usando o Big Data Analytic. Mas a maioria desses artigos não menciona Que tipo de dados essas empresas usaram. Qual foi o tamanho dos dados Que tipo de tecnologias de ferramentas eles usaram para processar os dados …

13 data-mining bigdata usecase

4

Podemos tirar proveito do uso do aprendizado por transferência enquanto treinamos os modelos word2vec?

Estou procurando encontrar pesos pré-treinados de modelos já treinados, como dados do Google Notícias, etc. Achei difícil treinar um novo modelo com quantidade suficiente (10 GB etc.) de dados para mim. Portanto, quero me beneficiar do aprendizado de transferência, no qual eu seria capaz de obter pesos de camada pré-treinados …

13 machine-learning bigdata word2vec

8

O Python é adequado para big data

Eu li neste post. A linguagem R é adequada para Big Data que o big data constitui 5TBe, embora faça um bom trabalho em fornecer informações sobre a viabilidade de trabalhar com esse tipo de dados R, fornece muito pouca informação sobre Python. Fiquei me perguntando se Pythonpode trabalhar com …

13 bigdata python

7

O que é um 'nome antigo' de cientista de dados?

Termos como 'ciência de dados' e 'cientista de dados' são cada vez mais usados atualmente. Muitas empresas estão contratando 'cientista de dados'. Mas não acho que seja um trabalho completamente novo. Os dados existiram no passado e alguém teve que lidar com dados. Eu acho que o termo 'cientista de …

12 bigdata

2

Algoritmo de correspondência de preferências

Há um projeto paralelo no qual estou trabalhando, onde preciso estruturar uma solução para o seguinte problema. Eu tenho dois grupos de pessoas (clientes). O grupo Apretende comprar e o grupo Bpretende vender um determinado produto X. O produto tem uma série de atributos x_i, e meu objetivo é facilitar …

12 bigdata text-mining recommender-system

2

Trocas entre Storm e Hadoop (MapReduce)

Alguém pode me informar sobre as compensações envolvidas na escolha entre o Storm e o MapReduce no Hadoop Cluster para processamento de dados? Obviamente, além do óbvio, o Hadoop (processamento via MapReduce em um Hadoop Cluster) é um sistema de processamento em lote e o Storm é um sistema de …

12 bigdata efficiency apache-hadoop distributed

3

Como uma consulta em um banco de dados enorme retorna com latência insignificante?

Por exemplo, ao pesquisar algo no Google, os resultados retornam quase instantaneamente. Entendo que o Google classifica e indexa páginas com algoritmos, etc., mas acho inviável que os resultados de cada consulta possível sejam indexados (e os resultados são personalizados, o que torna isso ainda mais inviável)? Além disso, a …

12 bigdata google search

1

Quantas células LSTM devo usar?

Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of time steps n - length of input …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

O FPGrowth ainda é considerado "estado da arte" na mineração de padrões freqüentes?

Tanto quanto eu sei o desenvolvimento de algoritmos para resolver o problema da Mineração de Padrão Frequente (FPM), o caminho das melhorias tem alguns pontos de verificação principais. Primeiramente, o algoritmo Apriori foi proposto em 1993 por Agrawal et al. , juntamente com a formalização do problema. O algoritmo conseguiu …

12 bigdata data-mining efficiency state-of-the-art

4

Trabalhando com Clusters HPC

Na minha universidade, temos um cluster de computação HPC. Eu uso o cluster para treinar classificadores e assim por diante. Portanto, geralmente, para enviar um trabalho para o cluster (por exemplo, script python scikit-learn), preciso escrever um script Bash que contenha (entre outros) um comando como qsub script.py. No entanto, …

11 bigdata data-mining

3

Melhores idiomas para computação científica [fechado]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 5 anos . Parece que a maioria das línguas tem algum número de …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

O que é mais rápido: PostgreSQL vs MongoDB em grandes conjuntos de dados JSON?

Eu tenho um grande conjunto de dados com objetos JSON de 9m em ~ 300 bytes cada. São postagens de um agregador de links: basicamente links (uma URL, título e ID do autor) e comentários (texto e ID do autor) + metadados. Eles poderiam muito bem ser registros relacionais em …

10 data-mining bigdata databases sql mongodb

2

Detecção de outlier / anomalia escalável

Estou tentando configurar uma infraestrutura de big data usando Hadoop, Hive, Elastic Search (entre outros) e gostaria de executar alguns algoritmos em determinados conjuntos de dados. Eu gostaria que os algoritmos fossem escalonáveis, então isso exclui o uso de ferramentas como Weka, R ou RHadoop. A Biblioteca Apache Mahout parece …

10 data-mining bigdata algorithms outlier

3

Como várias técnicas estatísticas (regressão, PCA, etc.) são escalonadas com o tamanho e a dimensão da amostra?

Existe uma tabela geral conhecida de técnicas estatísticas que explique como elas são dimensionadas com tamanho e dimensão da amostra? Por exemplo, um amigo meu me disse outro dia que o tempo de computação da simples classificação rápida de dados unidimensionais do tamanho n é n * log (n). Então, …

10 bigdata statistics efficiency scalability

Perguntas com a marcação «bigdata»