Sou Rprogramador de idiomas. Também faço parte do grupo de pessoas que são consideradas cientistas de dados, mas que vêm de outras disciplinas acadêmicas que não a CS.
Isso funciona bem no meu papel de cientista de dados, no entanto, ao iniciar minha carreira Re ter apenas o conhecimento básico de outras linguagens de script / web, me senti um tanto inadequado em duas áreas principais:
- Falta de um sólido conhecimento da teoria da programação.
- Falta de um nível competitivo de habilidades em linguagens mais rápidas e amplamente usadas, como
C,C++eJava, que poderiam ser utilizadas para aumentar a velocidade do pipeline e os cálculos de Big Data, além de criar produtos de DS / dados que podem ser mais rapidamente desenvolvidos em rápido scripts de back-end ou aplicativos independentes.
A solução é simples, é claro - aprenda sobre programação, que é o que tenho feito ao me matricular em algumas aulas (atualmente em programação C).
No entanto, agora que estou começando a resolver os problemas 1 e 2 acima, fico me perguntando " quão viáveis são as linguagens Ce C++a Ciência de Dados? ".
Por exemplo, posso mover dados muito rapidamente e interagir muito bem com os usuários, mas e quanto à regressão avançada, Machine Learning, mineração de texto e outras operações estatísticas mais avançadas?
Tão. pode Cfazer o trabalho - quais ferramentas estão disponíveis para estatísticas avançadas, ML, AI e outras áreas da ciência de dados? Ou devo perder a maior parte da eficiência obtida com a programação Cchamando Rscripts ou outros idiomas?
O melhor recurso que encontrei até agora em C é uma biblioteca chamada Shark , que oferece C/ C++a capacidade de usar Máquinas de Vetor de Suporte, regressão linear (não-linear e outra regressão avançada como probit multinomial, etc.) e uma lista restrita de outras (ótimas, mas) funções estatísticas.
