"Como posso importar um arquivo .csv para os quadros de dados do pyspark?" -- Há muitas maneiras de fazer isso; o mais simples seria iniciar o pyspark com o módulo spark-csv da Databrick. Você pode fazer isso iniciando o pyspark com
pyspark --packages com.databricks:spark-csv_2.10:1.4.0
então você pode seguir as seguintes etapas:
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('cars.csv')
O outro método seria ler o arquivo de texto como um arquivo rdd usando
myrdd = sc.textFile("yourfile.csv").map(lambda line: line.split(","))
Em seguida, transforme seus dados para que cada item esteja no formato correto para o esquema (ou seja, Ints, Strings, Floats, etc.). Você vai querer usar
>>> from pyspark.sql import Row
>>> Person = Row('name', 'age')
>>> person = rdd.map(lambda r: Person(*r))
>>> df2 = sqlContext.createDataFrame(person)
>>> df2.collect()
[Row(name=u'Alice', age=1)]
>>> from pyspark.sql.types import *
>>> schema = StructType([
... StructField("name", StringType(), True),
... StructField("age", IntegerType(), True)])
>>> df3 = sqlContext.createDataFrame(rdd, schema)
>>> df3.collect()
[Row(name=u'Alice', age=1)]
Referência: http://spark.apache.org/docs/1.6.1/api/python/pyspark.sql.html#pyspark.sql.Row
"Além disso, por favor me diga como posso importar o arquivo xlsx?" - arquivos do Excel não são usados no "Big Data"; O Spark deve ser usado com arquivos ou bancos de dados grandes. Se você tem um arquivo do Excel com 50 GB de tamanho, está fazendo algo errado. O Excel nem seria capaz de abrir um arquivo desse tamanho; da minha experiência, qualquer coisa acima de 20 MB e Excel morre.