Perguntas com a marcação «apache-spark-sql»

Apache Spark SQL é uma ferramenta para "SQL e processamento de dados estruturados" no Spark, um sistema de computação em cluster rápido e de uso geral. Ele pode ser usado para recuperar dados do Hive, Parquet etc. e executar consultas SQL em RDDs e conjuntos de dados existentes.



8
Como selecionar a primeira linha de cada grupo?
Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …

14
Spark - carregar arquivo CSV como DataFrame?
Gostaria de ler um CSV no spark e convertê-lo como DataFrame e armazená-lo no HDFS com df.registerTempTable("table_name") Eu tentei: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Erro que recebi: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at …


2
Como adicionar uma coluna constante em um Spark DataFrame?
Eu quero adicionar uma coluna em um DataFramecom algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando uso da withColumnseguinte maneira: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', …



9
Como adiciono uma nova coluna a um Spark DataFrame (usando PySpark)?
Eu tenho um Spark DataFrame (usando o PySpark 1.5.1) e gostaria de adicionar uma nova coluna. Eu tentei o seguinte sem sucesso: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Também ocorreu um erro ao usar este: …



5
como alterar uma coluna do Dataframe do tipo String para o tipo Double no pyspark
Eu tenho um dataframe com coluna como String. Eu queria alterar o tipo de coluna para tipo duplo no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Só queria saber se essa é a maneira certa de fazer isso, pois enquanto estou …

10
Filtrar coluna de dataframe do Pyspark com valor Nenhum
Estou tentando filtrar um dataframe PySpark que tem Nonecomo valor de linha: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] e posso filtrar corretamente com um valor de string: df[df.dt_mvmt == '2016-03-31'] # some results here mas isso falha: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Mas definitivamente existem valores …



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.