Ciência de dados pyspark

3

Mesclando vários quadros de dados em linhas no PySpark

Eu tenho quadros 10 dados pyspark.sql.dataframe.DataFrame, obtidos a partir randomSplitde (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)agora eu quero participar 9 tdé em um único quadro de dados, como devo fazer isso? Eu …

21 python apache-spark cross-validation pyspark

1

Quantas células LSTM devo usar?

Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of time steps n - length of input …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

4

Importar o conteúdo do arquivo csv para os quadros de dados pyspark

Como posso importar um arquivo .csv para os quadros de dados pyspark? Eu até tentei ler o arquivo csv no Pandas e convertê-lo em um dataframe spark usando createDataFrame, mas ele ainda mostra algum erro. Alguém pode me guiar por isso? Além disso, diga-me como posso importar um arquivo xlsx? …

12 pyspark

3

Problema com o IPython / Jupyter no Spark (alias não reconhecido)

Estou trabalhando na configuração de um conjunto de VMs para experimentar o Spark antes de gastar e gastar dinheiro na construção de um cluster com algum hardware. Nota rápida: Sou um acadêmico com experiência em aprendizado de máquina aplicado e trabalho bastante em ciência de dados. Eu uso as ferramentas …

11 python apache-spark pyspark ipython

2

Como converter dados categóricos em dados numéricos no Pyspark

Estou usando o notebook Ipython para trabalhar com aplicativos pyspark. Eu tenho um arquivo CSV com muitas colunas categóricas para determinar se a renda cai abaixo ou acima do intervalo de 50k. Eu gostaria de executar um algoritmo de classificação, utilizando todas as entradas para determinar a faixa de renda. …

11 python apache-spark categorical-data pyspark

1

Spark ALS: recomendando para novos usuários

A questão Como posso prever a classificação de um novo usuário em um modelo de ALS treinado no Spark? (Novo = não visto durante o tempo de treinamento) O problema Estou seguindo o tutorial oficial do Spark ALS aqui: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Eu sou capaz de construir um bom recomendador com um …

10 apache-spark recommender-system pyspark

1

Spark, idealmente dividindo um único RDD em dois

Eu tenho um grande conjunto de dados que preciso dividir em grupos de acordo com parâmetros específicos. Quero que o trabalho seja processado da maneira mais eficiente possível. Eu posso imaginar duas maneiras de fazer isso Opção 1 - Criar mapa a partir do RDD original e filtrar def customMapper(record): …

10 apache-spark pyspark

3

Quando o cache expirou para um RDD no pyspark?

Usamos .cache()no RDD para cache persistente de um conjunto de dados. Minha preocupação é quando esse cache será expirado? dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()

10 apache-spark pyspark

4

Como executar um aplicativo pyspark no prompt de comando do Windows 8

Eu tenho um script python escrito com o Contexto Spark e quero executá-lo. Tentei integrar o IPython ao Spark, mas não consegui. Então, tentei definir o caminho do spark [pasta / bin de instalação] como uma variável de ambiente e chamei o comando spark-submit no prompt do cmd. Acredito que …

8 python apache-spark pyspark ipython

1

Gere previsões ortogonais (não correlacionadas) para uma determinada variável

Eu tenho uma Xmatriz, uma yvariável e outra variável ORTHO_VAR. Preciso prever a yvariável usando X, no entanto, as previsões desse modelo precisam ser ortogonais e, ao ORTHO_VARmesmo tempo, estar o mais correlacionadas ypossível. Eu preferiria que as previsões fossem geradas com um método não paramétrico como, por exemplo, xgboost.XGBRegressormas …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

3

Como definir / obter o tamanho da pilha do Spark (via bloco de notas Python)

Estou usando o Spark (1.5.1) de um notebook IPython em um macbook pro. Após a instalação de ignição e Anaconda, eu começo IPython de um terminal executando: IPYTHON_OPTS="notebook" pyspark. Isso abre uma página da Web listando todos os meus notebooks IPython. Eu posso selecionar um deles, abrindo-o em uma segunda …

7 apache-spark pyspark ipython anaconda

1

Usando o Apache Spark para fazer ML. Continue recebendo erros de serialização

então estou usando o Spark para fazer análises de sentimentos e continuo recebendo erros com os serializadores que ele usa (acho) para transmitir objetos python. PySpark worker failed with exception: Traceback (most recent call last): File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/worker.py", line 77, in main serializer.dump_stream(func(split_index, iterator), outfile) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 191, …

7 apache-spark pyspark sentiment-analysis

Perguntas com a marcação «pyspark»