Perguntas com a marcação «pyspark»


1
Quantas células LSTM devo usar?
Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of time steps n - length of input …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

4
Importar o conteúdo do arquivo csv para os quadros de dados pyspark
Como posso importar um arquivo .csv para os quadros de dados pyspark? Eu até tentei ler o arquivo csv no Pandas e convertê-lo em um dataframe spark usando createDataFrame, mas ele ainda mostra algum erro. Alguém pode me guiar por isso? Além disso, diga-me como posso importar um arquivo xlsx? …
12 pyspark 



1
Spark ALS: recomendando para novos usuários
A questão Como posso prever a classificação de um novo usuário em um modelo de ALS treinado no Spark? (Novo = não visto durante o tempo de treinamento) O problema Estou seguindo o tutorial oficial do Spark ALS aqui: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Eu sou capaz de construir um bom recomendador com um …

1
Spark, idealmente dividindo um único RDD em dois
Eu tenho um grande conjunto de dados que preciso dividir em grupos de acordo com parâmetros específicos. Quero que o trabalho seja processado da maneira mais eficiente possível. Eu posso imaginar duas maneiras de fazer isso Opção 1 - Criar mapa a partir do RDD original e filtrar def customMapper(record): …



1
Gere previsões ortogonais (não correlacionadas) para uma determinada variável
Eu tenho uma Xmatriz, uma yvariável e outra variável ORTHO_VAR. Preciso prever a yvariável usando X, no entanto, as previsões desse modelo precisam ser ortogonais e, ao ORTHO_VARmesmo tempo, estar o mais correlacionadas ypossível. Eu preferiria que as previsões fossem geradas com um método não paramétrico como, por exemplo, xgboost.XGBRegressormas …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 


1
Usando o Apache Spark para fazer ML. Continue recebendo erros de serialização
então estou usando o Spark para fazer análises de sentimentos e continuo recebendo erros com os serializadores que ele usa (acho) para transmitir objetos python. PySpark worker failed with exception: Traceback (most recent call last): File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/worker.py", line 77, in main serializer.dump_stream(func(split_index, iterator), outfile) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 191, …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.