Aqui estão sete etapas para instalar o Spark no Windows 10 e executá-lo a partir do Python:
Etapa 1: baixe o arquivo spark 2.2.0 tar (tape Archive) gz para qualquer pasta F neste link - https://spark.apache.org/downloads.html . Descompacte-o e copie a pasta descompactada para a pasta desejada A. Renomeie a pasta spark-2.2.0-bin-hadoop2.7 para spark.
Deixe o caminho para a pasta spark ser C: \ Users \ Desktop \ A \ spark
Etapa 2: baixe o arquivo hardoop 2.7.3 tar gz para a mesma pasta F deste link - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Descompacte-o e copie a pasta descompactada para a mesma pasta A. Renomeie o nome da pasta de Hadoop-2.7.3.tar para hadoop. Deixe que o caminho para a pasta hadoop seja C: \ Users \ Desktop \ A \ hadoop
Etapa 3: Crie um novo arquivo de texto do bloco de notas. Salve este arquivo vazio do bloco de notas como winutils.exe (com Salvar como tipo: Todos os arquivos). Copie este arquivo O KB winutils.exe para a pasta bin em spark - C: \ Users \ Desktop \ A \ spark \ bin
Etapa 4: Agora, temos que adicionar essas pastas ao ambiente do sistema.
4a: Crie uma variável de sistema (não uma variável de usuário, pois a variável de usuário herdará todas as propriedades da variável de sistema) Nome da variável: SPARK_HOME Valor da variável: C: \ Usuários \ Desktop \ A \ spark
Encontre a variável de sistema do caminho e clique em editar. Você verá vários caminhos. Não exclua nenhum dos caminhos. Adicione este valor de variável -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Crie uma variável de sistema
Nome da variável: HADOOP_HOME Valor da variável: C: \ Users \ Desktop \ A \ hadoop
Encontre a variável de sistema do caminho e clique em editar. Adicione este valor de variável -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Crie uma variável de sistema Nome da variável: JAVA_HOME Pesquise Java no Windows. Clique com o botão direito e clique em abrir o local do arquivo. Você terá que clicar novamente com o botão direito em qualquer um dos arquivos java e clicar em abrir o local do arquivo. Você usará o caminho desta pasta. OU você pode pesquisar C: \ Arquivos de programas \ Java. Minha versão do Java instalada no sistema é jre1.8.0_131. Valor da variável: C: \ Arquivos de programas \ Java \ jre1.8.0_131 \ bin
Encontre a variável de sistema do caminho e clique em editar. Adicione este valor de variável -; C: \ Arquivos de programas \ Java \ jre1.8.0_131 \ bin
Etapa 5: Abra o prompt de comando e vá para a pasta spark bin (digite cd C: \ Users \ Desktop \ A \ spark \ bin). Digite faísca.
C:\Users\Desktop\A\spark\bin>spark-shell
Pode demorar algum tempo e dar alguns avisos. Finalmente, ele será bem-vindo ao spark versão 2.2.0
Etapa 6: Digite exit () ou reinicie o prompt de comando e vá para a pasta spark bin novamente. Digite pyspark:
C:\Users\Desktop\A\spark\bin>pyspark
Ele mostrará alguns avisos e erros, mas ignore. Funciona.
Etapa 7: Seu download foi concluído. Se você deseja executar diretamente o spark a partir do shell python: vá para Scripts em sua pasta python e digite
pip install findspark
no prompt de comando.
Em python shell
import findspark
findspark.init()
importe os módulos necessários
from pyspark import SparkContext
from pyspark import SparkConf
Se você quiser pular as etapas de importação de findpark e inicializá-lo, siga o procedimento fornecido para
importar pyspark em shell python