Programação apache-spark

2

O que significam os números na barra de progresso no shell do spark?

Em meu shell de faísca, o que entradas como as abaixo significam quando eu executo uma função? [Stage7:===========> (14174 + 5) / 62500]

92 apache-spark

5

Apache Spark: como usar o pyspark com Python 3

Eu criei o Spark 1.4 a partir do mestre de desenvolvimento GH e a compilação foi bem. Mas quando faço um bin/pyspark, recebo a versão Python 2.7.9. Como posso mudar isso?

91 python python-3.x apache-spark

12

java.io.IOException: Não foi possível localizar o executável null \ bin \ winutils.exe nos binários do Hadoop. faísca Eclipse no Windows 7

Não consigo executar um sparktrabalho simples em Scala IDE(projeto Maven Spark) instalado emWindows 7 A dependência do núcleo do Spark foi adicionada. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Erro: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 …

91 eclipse scala apache-spark

5

Spark DataFrame groupBy e classificação em ordem decrescente (pyspark)

Estou usando o pyspark (Python 2.7.9 / Spark 1.3.1) e tenho um GroupObject de dataframe que preciso filtrar e classificar em ordem decrescente. Tentar consegui-lo por meio deste pedaço de código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mas isso gera o seguinte erro. sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

12

Erro de shell do Mac ao inicializar SparkContext

Tentei iniciar o Spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) no Mac OS Yosemite 10.10.5 usando "./bin/spark-shell". Tem o erro abaixo. Também tentei instalar diferentes versões do Spark, mas todas apresentaram o mesmo erro. Esta é a segunda vez que estou executando o Spark. Minha corrida anterior funciona bem. log4j:WARN No appenders could be …

87 apache-spark

1

O que significa “Etapa ignorada” na IU da Web do Apache Spark?

Da minha IU do Spark. O que significa pulado?

87 apache-spark rdd

18

Como faço para definir a versão do driver python no spark?

Estou usando o spark 1.4.0-rc2, então posso usar o python 3 com o spark. Se eu adicionar export PYSPARK_PYTHON=python3ao meu arquivo .bashrc, poderei executar o spark interativamente com o python 3. No entanto, se eu quiser executar um programa autônomo no modo local, recebo um erro: Exception: Python in worker …

87 apache-spark pyspark

9

Extraia os valores da coluna do Dataframe como lista no Apache Spark

Quero converter uma coluna de string de um quadro de dados em uma lista. O que posso encontrar na DataframeAPI é RDD, então tentei primeiro convertê-lo de volta para RDD e depois aplicar a toArrayfunção ao RDD. Nesse caso, o comprimento e o SQL funcionam perfeitamente. No entanto, o resultado …

86 scala apache-spark apache-spark-sql

11

Como salvar o DataFrame diretamente no Hive?

É possível salvar DataFrameno Spark diretamente no Hive? Eu tentei com a conversão DataFramepara Rdde, em seguida, salvar como um arquivo de texto e, em seguida, carregando no colmeia. Mas estou me perguntando se posso salvar diretamente dataframepara a colmeia

85 scala apache-spark hive apache-spark-sql

5

Calcular a velocidade média das estradas [fechada]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 4 dias . Eu fui a uma entrevista de emprego de engenheiro de …

20 apache-spark apache-kafka stream-processing

2

Impasse quando muitos trabalhos de centelha são agendados simultaneamente

Utilizando o spark 2.4.4 em execução no modo de cluster YARN com o planejador FIFO do spark. Estou enviando várias operações de quadro de dados spark (ou seja, gravando dados no S3) usando um executor de pool de threads com um número variável de threads. Isso funciona bem se eu …

17 apache-spark

2

Spark: Por que o Python supera significativamente o Scala no meu caso de uso?

Para comparar o desempenho do Spark ao usar Python e Scala, criei o mesmo trabalho nos dois idiomas e comparei o tempo de execução. Eu esperava que os dois trabalhos levassem aproximadamente a mesma quantidade de tempo, mas o trabalho em Python levou apenas 27min, enquanto o trabalho em Scala …

16 python scala apache-spark pyspark

1

Escrevendo mais de 50 milhões do Pyspark df para o PostgresSQL, a melhor abordagem eficiente

Qual seria a maneira mais eficiente de inserir milhões de registros, digamos 50 milhões, de um dataframe Spark para o Postgres Tables. Eu fiz isso do spark ao MSSQL no passado, usando a opção de cópia em massa e tamanho do lote, que também teve êxito. Existe algo semelhante que …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

3

Como corrigir o erro 'TypeError: é necessário um número inteiro (obteve o tipo bytes)' ao tentar executar o pyspark após a instalação do spark 2.4.4

Instalei o OpenJDK 13.0.1 e python 3.8 e spark 2.4.4. As instruções para testar a instalação são executar. \ Bin \ pyspark a partir da raiz da instalação do spark. Não tenho certeza se perdi uma etapa na instalação do spark, como definir alguma variável de ambiente, mas não consigo …

16 apache-spark pyspark

1

pandasUDF e pyarrow 0.15.0

Recentemente, comecei a receber vários erros em vários pysparktrabalhos em execução em clusters de EMR. Os erros são java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Todos eles parecem …

12 pandas apache-spark pyspark pyarrow

Perguntas com a marcação «apache-spark»