Programação pyspark

13

Como alterar os nomes das colunas do quadro de dados no pyspark?

Eu venho do fundo do pandas e estou acostumado a ler dados de arquivos CSV em um dataframe e depois simplesmente alterar os nomes das colunas para algo útil usando o comando simples: df.columns = new_column_name_list No entanto, o mesmo não funciona em quadros de dados pyspark criados usando o …

201 python apache-spark pyspark pyspark-sql

2

Desempenho do Spark para Scala vs Python

Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a versão Scala de algum código de pré-processamento muito comum …

178 scala performance apache-spark pyspark rdd

15

Como desativar o registro INFO no Spark?

Instalei o Spark usando o guia da AWS EC2 e posso iniciar o programa com bin/pysparkprecisão usando o script para acessar o prompt do spark e também posso executar o Quick Start com êxito. No entanto, durante toda a minha vida, não consigo descobrir como interromper todo o INFOlog detalhado …

144 python scala apache-spark hadoop pyspark

2

Como adicionar uma coluna constante em um Spark DataFrame?

Eu quero adicionar uma coluna em um DataFramecom algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando uso da withColumnseguinte maneira: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', …

137 python apache-spark dataframe pyspark apache-spark-sql

9

Como adiciono uma nova coluna a um Spark DataFrame (usando PySpark)?

Eu tenho um Spark DataFrame (usando o PySpark 1.5.1) e gostaria de adicionar uma nova coluna. Eu tentei o seguinte sem sucesso: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Também ocorreu um erro ao usar este: …

128 python apache-spark dataframe pyspark apache-spark-sql

19

importando pyspark em python shell

Esta é uma cópia da pergunta de outra pessoa em outro fórum que nunca foi respondida, então pensei em perguntar novamente aqui, pois tenho o mesmo problema. (Consulte http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) Instalei o Spark corretamente em minha máquina e consigo executar programas python com os módulos pyspark sem erros ao usar …

111 python apache-spark pyspark

12

Carregar arquivo CSV com Spark

Sou novo no Spark e estou tentando ler dados CSV de um arquivo com o Spark. Aqui está o que estou fazendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Eu esperaria que esta chamada me desse uma lista das duas primeiras colunas do meu arquivo, mas estou recebendo este erro: File …

110 python csv apache-spark pyspark

8

Converter a coluna Spark DataFrame em lista python

Eu trabalho em um dataframe com duas colunas, mvv e count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | Eu gostaria de obter duas listas contendo valores de mvv e valor de contagem. Algo como …

104 python apache-spark pyspark spark-dataframe

4

Aplicativo Spark Kill Running

Eu tenho um aplicativo Spark em execução, onde ocupa todos os núcleos, onde meus outros aplicativos não receberão nenhum recurso. Fiz uma pesquisa rápida e as pessoas sugeriram usar YARN kill ou / bin / spark-class para matar o comando. No entanto, estou usando a versão CDH e / bin …

101 apache-spark yarn pyspark

5

como alterar uma coluna do Dataframe do tipo String para o tipo Double no pyspark

Eu tenho um dataframe com coluna como String. Eu queria alterar o tipo de coluna para tipo duplo no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Só queria saber se essa é a maneira certa de fazer isso, pois enquanto estou …

99 python apache-spark dataframe pyspark apache-spark-sql

10

Filtrar coluna de dataframe do Pyspark com valor Nenhum

Estou tentando filtrar um dataframe PySpark que tem Nonecomo valor de linha: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] e posso filtrar corretamente com um valor de string: df[df.dt_mvmt == '2016-03-31'] # some results here mas isso falha: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Mas definitivamente existem valores …

98 python apache-spark dataframe pyspark apache-spark-sql

5

Spark DataFrame groupBy e classificação em ordem decrescente (pyspark)

Estou usando o pyspark (Python 2.7.9 / Spark 1.3.1) e tenho um GroupObject de dataframe que preciso filtrar e classificar em ordem decrescente. Tentar consegui-lo por meio deste pedaço de código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mas isso gera o seguinte erro. sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

18

Como faço para definir a versão do driver python no spark?

Estou usando o spark 1.4.0-rc2, então posso usar o python 3 com o spark. Se eu adicionar export PYSPARK_PYTHON=python3ao meu arquivo .bashrc, poderei executar o spark interativamente com o python 3. No entanto, se eu quiser executar um programa autônomo no modo local, recebo um erro: Exception: Python in worker …

87 apache-spark pyspark

2

Spark: Por que o Python supera significativamente o Scala no meu caso de uso?

Para comparar o desempenho do Spark ao usar Python e Scala, criei o mesmo trabalho nos dois idiomas e comparei o tempo de execução. Eu esperava que os dois trabalhos levassem aproximadamente a mesma quantidade de tempo, mas o trabalho em Python levou apenas 27min, enquanto o trabalho em Scala …

16 python scala apache-spark pyspark

1

Escrevendo mais de 50 milhões do Pyspark df para o PostgresSQL, a melhor abordagem eficiente

Qual seria a maneira mais eficiente de inserir milhões de registros, digamos 50 milhões, de um dataframe Spark para o Postgres Tables. Eu fiz isso do spark ao MSSQL no passado, usando a opção de cópia em massa e tamanho do lote, que também teve êxito. Existe algo semelhante que …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

Perguntas com a marcação «pyspark»