Perguntas com a marcação «apache-spark»

O Apache Spark é um mecanismo de processamento de dados distribuído de código aberto escrito em Scala que fornece uma API unificada e conjuntos de dados distribuídos para os usuários. Os Casos de Uso do Apache Spark geralmente estão relacionados a machine / deep learning, processamento de gráficos.



1
Spark: UDF executado várias vezes
Eu tenho um quadro de dados com o seguinte código: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Agora, verificando os logs, descobri que para cada linha a …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.