Perguntas com a marcação «apache-spark»

O Apache Spark é um mecanismo de processamento de dados distribuído de código aberto escrito em Scala que fornece uma API unificada e conjuntos de dados distribuídos para os usuários. Os Casos de Uso do Apache Spark geralmente estão relacionados a machine / deep learning, processamento de gráficos.


8
Como armazenar objetos personalizados no conjunto de dados?
De acordo com a introdução de conjuntos de dados Spark : Como esperamos ansiosamente pelo Spark 2.0, planejamos algumas melhorias interessantes para conjuntos de dados, especificamente: ... Codificadores personalizados - enquanto atualmente geramos automaticamente codificadores para uma ampla variedade de tipos, gostaríamos de abrir uma API para objetos personalizados. e …

15
Como desativar o registro INFO no Spark?
Instalei o Spark usando o guia da AWS EC2 e posso iniciar o programa com bin/pysparkprecisão usando o script para acessar o prompt do spark e também posso executar o Quick Start com êxito. No entanto, durante toda a minha vida, não consigo descobrir como interromper todo o INFOlog detalhado …

8
Como selecionar a primeira linha de cada grupo?
Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …

3
Como os estágios são divididos em tarefas no Spark?
Vamos assumir o seguinte: apenas um trabalho do Spark está sendo executado a cada momento. O que eu recebo até agora Aqui está o que eu entendo o que acontece no Spark: Quando a SparkContexté criado, cada nó do trabalhador inicia um executor. Executores são processos separados (JVM), que se …
143 apache-spark 

14
Spark - carregar arquivo CSV como DataFrame?
Gostaria de ler um CSV no spark e convertê-lo como DataFrame e armazená-lo no HDFS com df.registerTempTable("table_name") Eu tentei: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Erro que recebi: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at …


2
Como adicionar uma coluna constante em um Spark DataFrame?
Eu quero adicionar uma coluna em um DataFramecom algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando uso da withColumnseguinte maneira: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', …


3
Apache Spark: map vs mapPartitions?
Qual a diferença entre um RDD map e um mapPartitionsmétodo? E se flatMapcomporta como mapou como mapPartitions? Obrigado. (editar) ie qual é a diferença (semanticamente ou em termos de execução) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] …


9
Como adiciono uma nova coluna a um Spark DataFrame (usando PySpark)?
Eu tenho um Spark DataFrame (usando o PySpark 1.5.1) e gostaria de adicionar uma nova coluna. Eu tentei o seguinte sem sucesso: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Também ocorreu um erro ao usar este: …

12
Como definir a memória do Apache Spark Executor
Como posso aumentar a memória disponível para os nós do executor do Apache spark? Eu tenho um arquivo de 2 GB adequado para carregar no Apache Spark. Atualmente, estou executando o apache spark em uma máquina, para que o driver e o executor estejam na mesma máquina. A máquina possui …

10
Como imprimir o conteúdo de RDD?
Estou tentando imprimir o conteúdo de uma coleção no console do Spark. Eu tenho um tipo: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] E eu uso o comando: scala> linesWithSessionId.map(line => println(line)) Mas isto é impresso: res1: org.apache.spark.rdd.RDD [Unidade] = MappedRDD [4] no mapa em: 19 Como gravar o RDD no console ou …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.