Deixe-me esclarecer primeiro que estou começando minha jornada na ciência de dados do ponto de vista de programador e desenvolvedor de banco de dados. Não sou especialista em ciência de dados há 10 anos nem um deus estatístico. No entanto, trabalho como cientista de dados e grandes conjuntos de dados para uma empresa que trabalha com clientes bastante grandes em todo o mundo.
Pela minha experiência, o cientista de dados usa as ferramentas necessárias para realizar o trabalho. Excel, R, SAS, Python e muito mais são ferramentas em uma caixa de ferramentas para um bom cientista de dados. O melhor pode usar uma ampla variedade de ferramentas para analisar e processar dados.
Portanto, se você se compara ao R e ao Python, provavelmente está fazendo tudo errado no mundo da ciência de dados. Um bom cientista de dados usa os dois quando faz sentido usar um sobre o outro. Isso também se aplica ao Excel.
Eu acho que é bastante difícil encontrar alguém que tenha experiência em tantas ferramentas e linguagens diferentes e que seja ótimo em tudo. Também acho que vai ser difícil encontrar cientistas de dados especificamente que não apenas possam programar algoritmos complexos, mas também saiba como usá-los do ponto de vista estatístico.
A maioria dos cientistas de dados com quem trabalhei tem cerca de dois sabores. Aqueles que podem programar e aqueles que não podem. Eu raramente trabalho com cientistas de dados que podem extrair dados em Python, manipulá-los com algo como Pandas, ajustar um modelo aos dados em R e depois apresentá-los ao gerenciamento no final da semana.
Quero dizer, eu sei que eles existem. Eu li muitos blogs de ciência de dados de caras desenvolvendo scrappers da Web, inserindo-o no Hadoop, retirando-o em Python, programando coisas complexas e executando-o no R para inicializar. Eles existem. Eles estão lá fora. Só não encontrei muitos que podem fazer tudo isso. Talvez seja apenas a minha área?
Então, isso significa apenas se especializar em uma coisa ruim? Não. Muitos dos meus amigos se especializam em apenas um idioma principal e o matam. Conheço muitos caras de dados que só conhecem R e o matam. Também conheço muitas pessoas que usam o Excel para analisar dados, porque essa é a única coisa que a maioria dos cientistas não-dados pode abrir e usar (especialmente em empresas B2B). A pergunta que você realmente precisa responder é se essa é a ÚNICA coisa que você precisa para esta posição? E o mais importante, eles podem aprender coisas novas?
PS
A ciência de dados não se restringe apenas a "BIG DATA" ou NoSQL.