Há algumas coisas que você precisa entender ao lidar com Big Data -
O que é Big Data?
Você pode estar ciente dos famosos Vs de Big data - Volume, Velocidade, Variedade ... Portanto, o Python pode não ser adequado para todos. E isso acontece com todas as ferramentas de ciência de dados disponíveis. Você precisa saber qual ferramenta é boa para qual finalidade.
Se estiver lidando com grande volume de dados:
- Pig / Hive / Shark - Limpeza de dados e trabalho ETL
- Hadoop / Spark - Computação paralela distribuída
- Mahout / ML-Lib - Aprendizado de máquina
Agora, você pode usar o R / Python em estágios intermediários, mas perceberá que eles se tornam gargalo em todo o processo.
Se estiver lidando com a velocidade dos dados:
- Kafka / Storm - Sistema de alto rendimento
As pessoas estão tentando R / Python aqui, mas novamente depende do tipo de paralelismo que você deseja e da complexidade do seu modelo.
Que tipo de análise você deseja fazer?
Se o seu modelo exigir que todos os dados sejam trazidos para a memória primeiro, ele não deverá ser complexo, pois se os dados intermediários forem grandes, o código será interrompido. E se você pensar em gravá-lo no disco, terá um atraso adicional, pois a leitura / gravação do disco é lenta em comparação com a RAM.
Conclusão
Definitivamente, você pode usar o Python no espaço de Big Data (definitivamente, já que as pessoas estão tentando com o R, por que não o Python), mas conhece primeiro os seus dados e requisitos de negócios. Pode haver melhores ferramentas disponíveis para o mesmo e lembre-se sempre:
Suas ferramentas não devem determinar como você responde às perguntas. Suas perguntas devem determinar quais ferramentas você usa.