Perguntas com a marcação «apache-spark»

Apache Spark é um sistema de computação em cluster de código aberto que visa tornar a análise de dados rápida - tanto para executar quanto para escrever, originalmente desenvolvido no AMPLab da UC Berkeley.



2
SPARK Mllib: Regressão logística multiclasse, como obter as probabilidades de todas as classes e não da primeira?
Estou usando LogisticRegressionWithLBFGSpara treinar um classificador de várias classes. Existe uma maneira de obter a probabilidade de todas as classes (não apenas a principal classe candidata) quando eu testar o modelo em novas amostras não vistas? PS: Não sou necessariamente obrigado a usar o classificador LBFGS, mas gostaria de usar …


1
Por que a regressão logística no Spark e R retorna modelos diferentes para os mesmos dados?
Comparei os modelos de regressão logística em R ( glm) e Spark (LogisticRegressionWithLBFGS ) em um conjunto de dados de 390 obs. de 14 variáveis. Os resultados são completamente diferentes na interceptação e nos pesos. Como explicar isso? Aqui estão os resultados do Spark (LogisticRegressionWithLBFGS): model.intercept : 1.119830027739959 model.weights : …

1
Usando o Apache Spark para fazer ML. Continue recebendo erros de serialização
então estou usando o Spark para fazer análises de sentimentos e continuo recebendo erros com os serializadores que ele usa (acho) para transmitir objetos python. PySpark worker failed with exception: Traceback (most recent call last): File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/worker.py", line 77, in main serializer.dump_stream(func(split_index, iterator), outfile) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 191, …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.