Ciência de dados apache-spark

3

Mesclando vários quadros de dados em linhas no PySpark

Eu tenho quadros 10 dados pyspark.sql.dataframe.DataFrame, obtidos a partir randomSplitde (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)agora eu quero participar 9 tdé em um único quadro de dados, como devo fazer isso? Eu …

21 python apache-spark cross-validation pyspark

5

aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

Como calcular a média de uma coluna de quadro de dados e encontrar os 10% principais

Sou muito novo no Scala e no Spark e estou trabalhando em alguns exercícios criados usando estatísticas de beisebol. Estou usando uma classe de caso, crie um RDD e atribua um esquema aos dados, e depois o transformei em um DataFrame para que eu possa usar o SparkSQL para selecionar …

13 apache-spark scala

3

Substitua todos os valores numéricos em um dataframe pyspark por um valor constante

Considere um quadro de dados pyspark composto por elementos 'nulos' e elementos numéricos. Em geral, os elementos numéricos têm valores diferentes. Como é possível substituir todos os valores numéricos do quadro de dados por um valor numérico constante (por exemplo, pelo valor 1)? Desde já, obrigado! Exemplo para o dataframe …

12 python apache-spark

3

Problema com o IPython / Jupyter no Spark (alias não reconhecido)

Estou trabalhando na configuração de um conjunto de VMs para experimentar o Spark antes de gastar e gastar dinheiro na construção de um cluster com algum hardware. Nota rápida: Sou um acadêmico com experiência em aprendizado de máquina aplicado e trabalho bastante em ciência de dados. Eu uso as ferramentas …

11 python apache-spark pyspark ipython

2

Como converter dados categóricos em dados numéricos no Pyspark

Estou usando o notebook Ipython para trabalhar com aplicativos pyspark. Eu tenho um arquivo CSV com muitas colunas categóricas para determinar se a renda cai abaixo ou acima do intervalo de 50k. Eu gostaria de executar um algoritmo de classificação, utilizando todas as entradas para determinar a faixa de renda. …

11 python apache-spark categorical-data pyspark

1

Spark ALS: recomendando para novos usuários

A questão Como posso prever a classificação de um novo usuário em um modelo de ALS treinado no Spark? (Novo = não visto durante o tempo de treinamento) O problema Estou seguindo o tutorial oficial do Spark ALS aqui: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Eu sou capaz de construir um bom recomendador com um …

10 apache-spark recommender-system pyspark

1

Análise de log de servidor usando aprendizado de máquina

Foi-me atribuída esta tarefa para analisar os logs do servidor de nosso aplicativo, que contém logs de exceção, logs de banco de dados, etc. Sou novo no aprendizado de máquina, usamos o Spark com pesquisa elástica e o Sparks MLlib (ou PredictionIO). O resultado seria poder prever com base nos …

10 machine-learning predictive-modeling apache-spark

1

Spark, idealmente dividindo um único RDD em dois

Eu tenho um grande conjunto de dados que preciso dividir em grupos de acordo com parâmetros específicos. Quero que o trabalho seja processado da maneira mais eficiente possível. Eu posso imaginar duas maneiras de fazer isso Opção 1 - Criar mapa a partir do RDD original e filtrar def customMapper(record): …

10 apache-spark pyspark

3

Relação entre convolução em matemática e CNN

Li a explicação da convolução e a compreendi até certo ponto. Alguém pode me ajudar a entender como essa operação se relaciona à convolução nas redes neurais convolucionais? O filtro é uma função gque aplica peso?

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

3

Quando o cache expirou para um RDD no pyspark?

Usamos .cache()no RDD para cache persistente de um conjunto de dados. Minha preocupação é quando esse cache será expirado? dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()

10 apache-spark pyspark

2

Quando escolher a regressão linear ou a Árvore de Decisão ou a Floresta Aleatória? [fechadas]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 4 anos . Estou trabalhando em um projeto e estou tendo dificuldades para …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

Calcular semelhança de cosseno no Apache Spark

Eu tenho um DataFrame com IDF de determinadas palavras computadas. Por exemplo (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Agora, faça uma consulta Q, posso calcular o TF-IDF dessa consulta. Como faço para calcular a semelhança de cosseno da consulta com todos os documentos no quadro de dados (há quase um …

9 machine-learning nlp apache-spark cosine-distance

4

Classe desequilibrada: class_weight para algoritmos ML no Spark MLLib

No python sklearn, existem vários algoritmos (por exemplo, regressão, floresta aleatória ... etc.) que possuem o parâmetro class_weight para manipular dados desequilibrados. No entanto, não encontro esse parâmetro para os algoritmos MLLib. Existe um plano de implementar class_weight para algum algoritmo MLLib? Ou existe alguma abordagem no MLLib para dados …

8 machine-learning apache-spark unbalanced-classes weighted-data

4

Como executar um aplicativo pyspark no prompt de comando do Windows 8

Eu tenho um script python escrito com o Contexto Spark e quero executá-lo. Tentei integrar o IPython ao Spark, mas não consegui. Então, tentei definir o caminho do spark [pasta / bin de instalação] como uma variável de ambiente e chamei o comando spark-submit no prompt do cmd. Acredito que …

8 python apache-spark pyspark ipython

Perguntas com a marcação «apache-spark»