Perguntas com a marcação «apache-spark»

O Apache Spark é um mecanismo de processamento de dados distribuído de código aberto escrito em Scala que fornece uma API unificada e conjuntos de dados distribuídos para os usuários. Os Casos de Uso do Apache Spark geralmente estão relacionados a machine / deep learning, processamento de gráficos.


13
Spark - repartição () vs coalescência ()
De acordo com o Learning Spark Lembre-se de que o reparticionamento dos dados é uma operação bastante cara. O Spark também possui uma versão otimizada do repartition()chamado coalesce()que permite evitar a movimentação de dados, mas apenas se você estiver diminuindo o número de partições RDD. Uma diferença que recebo é …


12
Spark java.lang.OutOfMemoryError: espaço de heap Java
Meu cluster: 1 mestre, 11 escravos, cada nó tem 6 GB de memória. Minhas configurações: spark.executor.memory=4g, Dspark.akka.frameSize=512 Aqui está o problema: Primeiro , li alguns dados (2,19 GB) do HDFS para o RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Segundo , faça algo neste RDD: val res = imageBundleRDD.map(data => { val …

7
Tarefa não serializável: java.io.NotSerializableException ao chamar a função fora do fechamento apenas em classes e não em objetos
Obtendo um comportamento estranho ao chamar a função fora de um fechamento: quando a função está em um objeto, tudo está funcionando quando a função está em uma classe get: Tarefa não serializável: java.io.NotSerializableException: testing O problema é que eu preciso do meu código em uma classe e não em …



13
Como mostrar o conteúdo completo da coluna em um Spark Dataframe?
Estou usando o spark-csv para carregar dados em um DataFrame. Quero fazer uma consulta simples e exibir o conteúdo: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() A coluna parece truncada: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| …



20
Como parar as mensagens INFO exibidas no console do spark?
Gostaria de interromper várias mensagens que estão chegando no shell de faísca. Tentei editar o log4j.propertiesarquivo para interromper essas mensagens. Aqui estão os conteúdos de log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party …

10
Como ler vários arquivos de texto em um único RDD?
Eu quero ler um monte de arquivos de texto em um local hdfs e executar o mapeamento nele em uma iteração usando o spark. JavaRDD<String> records = ctx.textFile(args[1], 1); é capaz de ler apenas um arquivo por vez. Quero ler mais de um arquivo e processá-los como um único RDD. …
179 apache-spark 

2
Desempenho do Spark para Scala vs Python
Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a versão Scala de algum código de pré-processamento muito comum …

5
(Por que) precisamos chamar cache ou persistir em um RDD
Quando um conjunto de dados distribuído resiliente (RDD) é criado a partir de um arquivo ou coleção de texto (ou de outro RDD), precisamos chamar "cache" ou "persistir" explicitamente para armazenar os dados do RDD na memória? Ou os dados RDD são armazenados de forma distribuída na memória por padrão? …
171 scala  apache-spark  rdd 


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.