Como adiciono uma nova coluna a um Spark DataFrame (usando PySpark)?

128

Eu tenho um Spark DataFrame (usando o PySpark 1.5.1) e gostaria de adicionar uma nova coluna.

Eu tentei o seguinte sem sucesso:

type(randomed_hours) # => list

# Create in Python and transform to RDD

new_col = pd.DataFrame(randomed_hours, columns=['new_col'])

spark_new_col = sqlContext.createDataFrame(new_col)

my_df_spark.withColumn("hours", spark_new_col["new_col"])

Também ocorreu um erro ao usar este:

my_df_spark.withColumn("hours",  sc.parallelize(randomed_hours))

Então, como adiciono uma nova coluna (baseada no vetor Python) a um DataFrame existente com o PySpark?

— Boris
fonte

207

Você não pode adicionar uma coluna arbitrária a um DataFrameno Spark. Novas colunas podem ser criadas apenas usando literais (outros tipos literais são descritos em Como adicionar uma coluna constante em um Spark DataFrame? )

from pyspark.sql.functions import lit

df = sqlContext.createDataFrame(
    [(1, "a", 23.0), (3, "B", -23.0)], ("x1", "x2", "x3"))

df_with_x4 = df.withColumn("x4", lit(0))
df_with_x4.show()

## +---+---+-----+---+
## | x1| x2|   x3| x4|
## +---+---+-----+---+
## |  1|  a| 23.0|  0|
## |  3|  B|-23.0|  0|
## +---+---+-----+---+

transformando uma coluna existente:

from pyspark.sql.functions import exp

df_with_x5 = df_with_x4.withColumn("x5", exp("x3"))
df_with_x5.show()

## +---+---+-----+---+--------------------+
## | x1| x2|   x3| x4|                  x5|
## +---+---+-----+---+--------------------+
## |  1|  a| 23.0|  0| 9.744803446248903E9|
## |  3|  B|-23.0|  0|1.026187963170189...|
## +---+---+-----+---+--------------------+

incluído usando join:

from pyspark.sql.functions import exp

lookup = sqlContext.createDataFrame([(1, "foo"), (2, "bar")], ("k", "v"))
df_with_x6 = (df_with_x5
    .join(lookup, col("x1") == col("k"), "leftouter")
    .drop("k")
    .withColumnRenamed("v", "x6"))

## +---+---+-----+---+--------------------+----+
## | x1| x2|   x3| x4|                  x5|  x6|
## +---+---+-----+---+--------------------+----+
## |  1|  a| 23.0|  0| 9.744803446248903E9| foo|
## |  3|  B|-23.0|  0|1.026187963170189...|null|
## +---+---+-----+---+--------------------+----+

ou gerado com a função / udf:

from pyspark.sql.functions import rand

df_with_x7 = df_with_x6.withColumn("x7", rand())
df_with_x7.show()

## +---+---+-----+---+--------------------+----+-------------------+
## | x1| x2|   x3| x4|                  x5|  x6|                 x7|
## +---+---+-----+---+--------------------+----+-------------------+
## |  1|  a| 23.0|  0| 9.744803446248903E9| foo|0.41930610446846617|
## |  3|  B|-23.0|  0|1.026187963170189...|null|0.37801881545497873|
## +---+---+-----+---+--------------------+----+-------------------+

As funções internas ( pyspark.sql.functions), que são mapeadas para a expressão Catalyst, geralmente são preferidas às funções definidas pelo usuário do Python.

Se você deseja adicionar conteúdo de um RDD arbitrário como uma coluna, pode

adicionar números de linhas ao quadro de dados existente
chamar zipWithIndexRDD e convertê-lo em quadro de dados
unir os dois usando o índice como uma chave de junção

— zero323
fonte

1

"Novas colunas podem ser criadas apenas usando literais" O que exatamente os literais significam neste contexto?

— 91118 timbram

A documentação do Spark é excelente, consulte df.withColumn spark.apache.org/docs/2.1.0/api/python/…

— Steven Black

10

A documentação do Spark é "ótima" apenas na medida em que deixa grandes faixas de uso até um exercício para o leitor astuto. O Spark (e Pyspark) abrange um verdadeiro zoológico de estruturas de dados, com pouca ou nenhuma instrução sobre como converter entre elas. Caso em questão: proliferação de perguntas como esta.

— shadowtalker 7/01/19

62

Para adicionar uma coluna usando um UDF:

df = sqlContext.createDataFrame(
    [(1, "a", 23.0), (3, "B", -23.0)], ("x1", "x2", "x3"))

from pyspark.sql.functions import udf
from pyspark.sql.types import *

def valueToCategory(value):
   if   value == 1: return 'cat1'
   elif value == 2: return 'cat2'
   ...
   else: return 'n/a'

# NOTE: it seems that calls to udf() must be after SparkContext() is called
udfValueToCategory = udf(valueToCategory, StringType())
df_with_cat = df.withColumn("category", udfValueToCategory("x1"))
df_with_cat.show()

## +---+---+-----+---------+
## | x1| x2|   x3| category|
## +---+---+-----+---------+
## |  1|  a| 23.0|     cat1|
## |  3|  B|-23.0|      n/a|
## +---+---+-----+---------+

— Mark Rajcok
fonte

30

Para Spark 2.0

# assumes schema has 'age' column 
df.select('*', (df.age + 10).alias('agePlusTen'))

— Luke W
fonte

1

Precisa ser df.select ('*', (df.age + 10) .alias ('agePlusTen'))

— Frank B.

1

Obrigado, e se você entrar df = df.select('*', (df.age + 10).alias('agePlusTen'))você está efetivamente adicionando uma coluna arbitrária como @ zero323 advertiu-nos em cima, era impossível, a menos que haja algo de errado em fazer isso em Spark, em Pandas é a maneira padrão ..

— cardamomo

Existe uma versão disso para o pySpark?

— Tagar

O trecho @Tagar acima é python.

— Lc W

1

@GeoffreyAnderson,df.select('*', df.age + 10, df.age + 20)

— Mark Rajcok

2

Existem várias maneiras de adicionar uma nova coluna no pySpark.

Vamos primeiro criar um DataFrame simples.

date = [27, 28, 29, None, 30, 31]
df = spark.createDataFrame(date, IntegerType())

Agora vamos tentar dobrar o valor da coluna e armazená-lo em uma nova coluna. PFB algumas abordagens diferentes para alcançar o mesmo.

# Approach - 1 : using withColumn function
df.withColumn("double", df.value * 2).show()

# Approach - 2 : using select with alias function.
df.select("*", (df.value * 2).alias("double")).show()

# Approach - 3 : using selectExpr function with as clause.
df.selectExpr("*", "value * 2 as double").show()

# Approach - 4 : Using as clause in SQL statement.
df.createTempView("temp")
spark.sql("select *, value * 2 as double from temp").show()

Para mais exemplos e explicações sobre as funções do Spark DataFrame, você pode visitar meu blog .

Eu espero que isso ajude.

— neeraj bhadani
fonte

0

Você pode definir um novo udfao adicionar um column_name:

u_f = F.udf(lambda :yourstring,StringType())
a.select(u_f().alias('column_name')

— Allen211
fonte

0

from pyspark.sql.functions import udf
from pyspark.sql.types import *
func_name = udf(
    lambda val: val, # do sth to val
    StringType()
)
df.withColumn('new_col', func_name(df.old_col))

— DeFOX
fonte

Você precisa ligar StringType().

— gberger

0

Gostaria de oferecer um exemplo generalizado para um caso de uso muito semelhante:

Caso de Uso: Eu tenho um csv que consiste em:

First|Third|Fifth
data|data|data
data|data|data
...billion more lines

Eu preciso realizar algumas transformações e o csv final precisa parecer

First|Second|Third|Fourth|Fifth
data|null|data|null|data
data|null|data|null|data
...billion more lines

Preciso fazer isso porque esse é o esquema definido por algum modelo e preciso que meus dados finais sejam interoperáveis com as inserções em massa do SQL e outras coisas.

tão:

1) Li o csv original usando spark.read e chamo-o de "df".

2) Faço algo com os dados.

3) eu adiciono as colunas nulas usando este script:

outcols = []
for column in MY_COLUMN_LIST:
    if column in df.columns:
        outcols.append(column)
    else:
        outcols.append(lit(None).cast(StringType()).alias('{0}'.format(column)))

df = df.select(outcols)

Dessa forma, você pode estruturar seu esquema após carregar um csv (também funcionaria para reordenar colunas, se você precisar fazer isso para muitas tabelas).

— bloodrootfc
fonte

0

A maneira mais simples de adicionar uma coluna é usar "withColumn". Como o dataframe é criado usando o sqlContext, é necessário especificar o esquema ou, por padrão, pode estar disponível no conjunto de dados. Se o esquema for especificado, a carga de trabalho se tornará tediosa ao mudar sempre.

Abaixo está um exemplo que você pode considerar:

from pyspark.sql import SQLContext
from pyspark.sql.types import *
sqlContext = SQLContext(sc) # SparkContext will be sc by default 

# Read the dataset of your choice (Already loaded with schema)
Data = sqlContext.read.csv("/path", header = True/False, schema = "infer", sep = "delimiter")

# For instance the data has 30 columns from col1, col2, ... col30. If you want to add a 31st column, you can do so by the following:
Data = Data.withColumn("col31", "Code goes here")

# Check the change 
Data.printSchema()

— Swaminathan Meenakshisundaram
fonte

0

Podemos adicionar colunas adicionais ao DataFrame diretamente com as etapas abaixo:

from pyspark.sql.functions import when
df = spark.createDataFrame([["amit", 30], ["rohit", 45], ["sameer", 50]], ["name", "age"])
df = df.withColumn("profile", when(df.age >= 40, "Senior").otherwise("Executive"))
df.show()

— yogesh
fonte