Perguntas com a marcação «apache-spark»

O Apache Spark é um mecanismo de processamento de dados distribuído de código aberto escrito em Scala que fornece uma API unificada e conjuntos de dados distribuídos para os usuários. Os Casos de Uso do Apache Spark geralmente estão relacionados a machine / deep learning, processamento de gráficos.



12
java.io.IOException: Não foi possível localizar o executável null \ bin \ winutils.exe nos binários do Hadoop. faísca Eclipse no Windows 7
Não consigo executar um sparktrabalho simples em Scala IDE(projeto Maven Spark) instalado emWindows 7 A dependência do núcleo do Spark foi adicionada. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Erro: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 …

5
Spark DataFrame groupBy e classificação em ordem decrescente (pyspark)
Estou usando o pyspark (Python 2.7.9 / Spark 1.3.1) e tenho um GroupObject de dataframe que preciso filtrar e classificar em ordem decrescente. Tentar consegui-lo por meio deste pedaço de código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mas isso gera o seguinte erro. sort() got an unexpected keyword argument 'ascending'

12
Erro de shell do Mac ao inicializar SparkContext
Tentei iniciar o Spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) no Mac OS Yosemite 10.10.5 usando "./bin/spark-shell". Tem o erro abaixo. Também tentei instalar diferentes versões do Spark, mas todas apresentaram o mesmo erro. Esta é a segunda vez que estou executando o Spark. Minha corrida anterior funciona bem. log4j:WARN No appenders could be …


18
Como faço para definir a versão do driver python no spark?
Estou usando o spark 1.4.0-rc2, então posso usar o python 3 com o spark. Se eu adicionar export PYSPARK_PYTHON=python3ao meu arquivo .bashrc, poderei executar o spark interativamente com o python 3. No entanto, se eu quiser executar um programa autônomo no modo local, recebo um erro: Exception: Python in worker …








1
pandasUDF e pyarrow 0.15.0
Recentemente, comecei a receber vários erros em vários pysparktrabalhos em execução em clusters de EMR. Os erros são java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Todos eles parecem …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.