Perguntas com a marcação «apache-spark»

O Apache Spark é um mecanismo de processamento de dados distribuído de código aberto escrito em Scala que fornece uma API unificada e conjuntos de dados distribuídos para os usuários. Os Casos de Uso do Apache Spark geralmente estão relacionados a machine / deep learning, processamento de gráficos.

Apache Spark: impacto do reparticionamento, classificação e armazenamento em cache em uma junção

Estou explorando o comportamento do Spark ao ingressar em uma tabela. Eu estou usando Databricks. Meu cenário fictício é: Leia uma tabela externa como dataframe A (os arquivos subjacentes estão no formato delta) Defina o quadro de dados B como o quadro de dados A com apenas determinadas colunas selecionadas …

10 apache-spark pyspark bigdata azure-databricks delta-lake

Aplicando a função Python ao DataFrame agrupado pelo Pandas - qual é a abordagem mais eficiente para acelerar os cálculos?

Estou lidando com um DataFrame do Pandas bastante grande - meu conjunto de dados se parece com a seguinte dfconfiguração: import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) …

9 python pandas apache-spark parallel-processing dask

Spark: UDF executado várias vezes

Eu tenho um quadro de dados com o seguinte código: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Agora, verificando os logs, descobri que para cada linha a …

9 scala apache-spark apache-spark-sql

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.

Licensed under cc by-sa 3.0 with attribution required.