Perguntas com a marcação «bigdata»

Big data é o termo para uma coleção de conjuntos de dados tão grandes e complexos que fica difícil processar usando ferramentas de gerenciamento de banco de dados disponíveis ou aplicativos tradicionais de processamento de dados. Os desafios incluem captura, curadoria, armazenamento, pesquisa, compartilhamento, transferência, análise e visualização.

3
Manipulando um conjunto de recursos que aumenta regularmente
Estou trabalhando em um sistema de detecção de fraudes. Nesse campo, novas fraudes aparecem regularmente, de modo que novos recursos precisam ser adicionados ao modelo continuamente. Gostaria de saber qual é a melhor maneira de lidar com isso (da perspectiva do processo de desenvolvimento)? Apenas adicionar um novo recurso ao …


1
Evite recarregar o DataFrame entre diferentes kernels python
Existe uma maneira de manter uma variável (tabela grande / quadro de dados) na memória e compartilhá-la entre vários notebooks ipython? Eu estaria procurando por algo que seja conceitualmente semelhante às variáveis ​​persistentes do MATLAB. É possível chamar uma função / biblioteca personalizada de vários editores individuais (notebooks) e fazer …

3

2
Quando escolher a regressão linear ou a Árvore de Decisão ou a Floresta Aleatória? [fechadas]
Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 4 anos . Estou trabalhando em um projeto e estou tendo dificuldades para …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 


1
Diferença entre interpolar () e fillna () em pandas
Como o método interpolar e fillna faz o mesmo trabalho de preencher um valor. Qual é a diferença básica entre os dois. Qual é o significado de ter esses dois métodos diferentes? Alguém pode me explicar em termos leigos. Eu já visitei a documentação oficial e queria saber a diferença



1
Erro em cascata no Apache Storm
Analisando a apresentação e o material do Summingbird pelo Twitter, um dos motivos mencionados para o uso de clusters Storm e Hadoop juntos no Summingbird é que o processamento através do Storm resulta em cascata de erros. Para evitar essa cascata de erro e acumulação, o cluster Hadoop é usado …

2
Filtrando spam a partir de dados recuperados
Certa vez, ouvi dizer que filtrar spam usando listas negras não é uma boa abordagem, pois algum usuário que está procurando entradas no seu conjunto de dados pode estar procurando informações específicas das fontes bloqueadas. Também seria um fardo validar continuamente o estado atual de cada remetente de spam bloqueado, …




Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.