Eu criei o Spark 1.4 a partir do mestre de desenvolvimento GH e a compilação foi bem. Mas quando faço um bin/pyspark
, recebo a versão Python 2.7.9. Como posso mudar isso?
Eu criei o Spark 1.4 a partir do mestre de desenvolvimento GH e a compilação foi bem. Mas quando faço um bin/pyspark
, recebo a versão Python 2.7.9. Como posso mudar isso?
Respostas:
Basta definir a variável de ambiente:
export PYSPARK_PYTHON=python3
caso você queira que esta seja uma mudança permanente, adicione esta linha ao script pyspark.
export PYSPARK_PYTHON=python3.5
para Python 3.5
$SPARK_HOME/conf/spark-env.sh
assim spark-submit
usa o mesmo intérprete também.
PYSPARK_PYTHON=python3
./bin/pyspark
Se você deseja executar no Notebook IPython, escreva:
PYSPARK_PYTHON=python3
PYSPARK_DRIVER_PYTHON=ipython
PYSPARK_DRIVER_PYTHON_OPTS="notebook"
./bin/pyspark
Se python3
não estiver acessível, você precisa passar o caminho para ele.
Lembre-se que a documentação atual (a partir de 1.4.1) possui instruções desatualizadas. Felizmente, ele foi corrigido .
Dê uma olhada no arquivo. A linha shebang é provavelmente apontada para o binário 'env' que procura o caminho para o primeiro executável compatível.
Você pode alterar python para python3. Altere o env para usar diretamente o binário python3 codificado. Ou execute o binário diretamente com python3 e omita a linha shebang.
PYSPARK_PYTHON
variável de ambiente.
Para Jupyter Notebook, edite o spark-env.sh
arquivo conforme mostrado abaixo na linha de comando
$ vi $SPARK_HOME/conf/spark-env.sh
Vá para o final do arquivo e copie e cole estas linhas
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
Em seguida, basta executar o seguinte comando para iniciar o pyspark no notebook
$ pyspark
PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark
caso, ele executa o notebook IPython 3.