Sou R
programador de idiomas. Também faço parte do grupo de pessoas que são consideradas cientistas de dados, mas que vêm de outras disciplinas acadêmicas que não a CS.
Isso funciona bem no meu papel de cientista de dados, no entanto, ao iniciar minha carreira R
e ter apenas o conhecimento básico de outras linguagens de script / web, me senti um tanto inadequado em duas áreas principais:
- Falta de um sólido conhecimento da teoria da programação.
- Falta de um nível competitivo de habilidades em linguagens mais rápidas e amplamente usadas, como
C
,C++
eJava
, que poderiam ser utilizadas para aumentar a velocidade do pipeline e os cálculos de Big Data, além de criar produtos de DS / dados que podem ser mais rapidamente desenvolvidos em rápido scripts de back-end ou aplicativos independentes.
A solução é simples, é claro - aprenda sobre programação, que é o que tenho feito ao me matricular em algumas aulas (atualmente em programação C).
No entanto, agora que estou começando a resolver os problemas 1 e 2 acima, fico me perguntando " quão viáveis são as linguagens C
e C++
a Ciência de Dados? ".
Por exemplo, posso mover dados muito rapidamente e interagir muito bem com os usuários, mas e quanto à regressão avançada, Machine Learning, mineração de texto e outras operações estatísticas mais avançadas?
Tão. pode C
fazer o trabalho - quais ferramentas estão disponíveis para estatísticas avançadas, ML, AI e outras áreas da ciência de dados? Ou devo perder a maior parte da eficiência obtida com a programação C
chamando R
scripts ou outros idiomas?
O melhor recurso que encontrei até agora em C é uma biblioteca chamada Shark , que oferece C
/ C++
a capacidade de usar Máquinas de Vetor de Suporte, regressão linear (não-linear e outra regressão avançada como probit multinomial, etc.) e uma lista restrita de outras (ótimas, mas) funções estatísticas.