Perguntas com a marcação «apache-spark»

O Apache Spark é um mecanismo de processamento de dados distribuído de código aberto escrito em Scala que fornece uma API unificada e conjuntos de dados distribuídos para os usuários. Os Casos de Uso do Apache Spark geralmente estão relacionados a machine / deep learning, processamento de gráficos.

19
importando pyspark em python shell
Esta é uma cópia da pergunta de outra pessoa em outro fórum que nunca foi respondida, então pensei em perguntar novamente aqui, pois tenho o mesmo problema. (Consulte http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Instalei o Spark corretamente em minha máquina e consigo executar programas python com os módulos pyspark sem erros ao usar …

12
Carregar arquivo CSV com Spark
Sou novo no Spark e estou tentando ler dados CSV de um arquivo com o Spark. Aqui está o que estou fazendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Eu esperaria que esta chamada me desse uma lista das duas primeiras colunas do meu arquivo, mas estou recebendo este erro: File …


8
Como sobrescrever o diretório de saída no spark
Eu tenho um aplicativo de streaming de Spark que produz um conjunto de dados para cada minuto. Preciso salvar / sobrescrever os resultados dos dados processados. Quando tentei sobrescrever o dataset org.apache.hadoop.mapred.FileAlreadyExistsException para a execução. Eu defino a propriedade Spark set("spark.files.overwrite","true"), mas não dá sorte. Como sobrescrever ou Predelete os …
107 apache-spark 


4
Aplicativo Spark Kill Running
Eu tenho um aplicativo Spark em execução, onde ocupa todos os núcleos, onde meus outros aplicativos não receberão nenhum recurso. Fiz uma pesquisa rápida e as pessoas sugeriram usar YARN kill ou / bin / spark-class para matar o comando. No entanto, estou usando a versão CDH e / bin …


14
Como carregar o arquivo local em sc.textFile, em vez de HDFS
Estou seguindo o ótimo tutorial de faísca então, estou tentando a 46m: 00s carregar o, README.mdmas não consigo o que estou fazendo: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 INFO …

5
como alterar uma coluna do Dataframe do tipo String para o tipo Double no pyspark
Eu tenho um dataframe com coluna como String. Eu queria alterar o tipo de coluna para tipo duplo no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Só queria saber se essa é a maneira certa de fazer isso, pois enquanto estou …

10
Filtrar coluna de dataframe do Pyspark com valor Nenhum
Estou tentando filtrar um dataframe PySpark que tem Nonecomo valor de linha: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] e posso filtrar corretamente com um valor de string: df[df.dt_mvmt == '2016-03-31'] # some results here mas isso falha: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Mas definitivamente existem valores …


10
Como configurar o Spark no Windows?
Estou tentando configurar o Apache Spark no Windows. Depois de pesquisar um pouco, entendi que o modo autônomo é o que eu quero. Quais binários devo baixar para executar o Apache Spark no Windows? Vejo distribuições com hadoop e cdh na página de download do Spark. Não tenho referências na …



14
Spark - Erro “Um URL mestre deve ser definido em sua configuração” ao enviar um aplicativo
Eu tenho um aplicativo Spark que é executado sem problemas no modo local, mas tenho alguns problemas ao enviar para o cluster Spark. As mensagens de erro são as seguintes: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.