Tendo me graduado recentemente em meu programa de doutorado em estatística, durante os últimos dois meses comecei a procurar trabalho no campo da estatística. Quase todas as empresas que eu considerei tinham um anúncio de emprego com o título de " Data Scientist ". De fato, parecia que estavam longe os dias de ver os cargos de cientista estatístico ou estatístico . Ter sido um cientista de dados realmente substituiu o que era estatístico ou eram os títulos sinônimos como eu me perguntava?
Bem, a maioria das qualificações para os empregos parecia algo que se qualificaria sob o título de estatístico. A maioria dos trabalhos queria um doutorado em estatística ( ), a maioria exigia o entendimento de projeto experimental ( ), regressão linear e anova ( ), modelos lineares generalizados ( ) e outros métodos multivariados, como PCA ( ) , bem como conhecimentos em um ambiente de computação estatística, como R ou SAS ( ). Parece que um cientista de dados é realmente apenas um codinome para estatístico.✓ ✓ ✓ ✓ ✓
No entanto, todas as entrevistas que comecei com a pergunta: "Você conhece os algoritmos de aprendizado de máquina?" Na maioria das vezes, encontrei-me tendo que tentar responder a perguntas sobre big data, computação de alto desempenho e tópicos sobre redes neurais, CART, máquinas de vetores de suporte, aumento de árvores, modelos não supervisionados etc. Claro, eu me convenci de que eram todos questões estatísticas no coração, mas no final de cada entrevista eu não pude deixar de sentir que sabia cada vez menos sobre o que é um cientista de dados.
Sou estatístico, mas sou cientista de dados? Eu trabalho com problemas científicos, então devo ser um cientista! E também trabalho com dados, por isso devo ser um cientista de dados! E, de acordo com a Wikipedia, a maioria dos acadêmicos concordaria comigo ( https://en.wikipedia.org/wiki/Data_science etc.)
Embora o uso do termo "ciência de dados" tenha explodido nos ambientes de negócios, muitos acadêmicos e jornalistas não vêem distinção entre ciência de dados e estatística.
Mas se eu vou a todas essas entrevistas de emprego para uma posição de cientista de dados, por que parece que eles nunca estão me fazendo perguntas estatísticas?
Bem, depois da minha última entrevista, eu queria um bom cientista e procurei dados para resolver esse problema (ei, afinal, sou cientista de dados). No entanto, depois de inúmeras pesquisas no Google mais tarde, acabei exatamente onde comecei a me sentir como se estivesse mais uma vez lutando com a definição do que era um cientista de dados. Eu não sabia exatamente o que era um cientista de dados, pois havia muitas definições dele ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ), mas parecia que todo mundo estava me dizendo que eu queria ser um:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- etc .... a lista continua.
Bem, no final do dia, o que eu descobri foi "o que é um cientista de dados" é uma pergunta muito difícil de responder. Caramba, houve dois meses inteiros em Amstat, onde eles dedicaram tempo para tentar responder a essa pergunta:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Bem, por enquanto, eu tenho que ser um estatístico sexy para ser um cientista de dados, mas espero que a comunidade validada cruzada possa lançar alguma luz e me ajudar a entender o que significa ser um cientista de dados. Todos os estatísticos não são cientistas de dados?
(Editar / Atualizar)
Eu pensei que isso poderia apimentar a conversa. Acabei de receber um e-mail da American Statistical Association sobre um trabalho que colocava na Microsoft procurando um Data Scientist. Aqui está o link: Data Scientist Position . Eu acho isso interessante porque o papel da posição afeta muitas características específicas das quais falamos, mas acho que muitas delas exigem um background muito rigoroso em estatística, além de contradizer muitas das respostas postadas abaixo. Caso o link fique inoperante, eis as qualidades que a Microsoft procura em um cientista de dados:
Requisitos e habilidades principais do trabalho:
Experiência no domínio comercial usando o Analytics
- Deve ter experiência em vários domínios de negócios relevantes na utilização de habilidades de pensamento crítico para conceituar problemas de negócios complexos e suas soluções usando análises avançadas em conjuntos de dados de negócios do mundo real em larga escala
- O candidato deve ser capaz de executar projetos analíticos de forma independente e ajudar nossos clientes internos a entender as descobertas e traduzi-las em ação para beneficiar seus negócios.
Modelagem Preditiva
- Experiência em diversos setores na modelagem preditiva
- Definição de problemas de negócios e modelagem conceitual com o cliente para obter relacionamentos importantes e definir o escopo do sistema
Estatística / Econometria
- Análise exploratória de dados para dados contínuos e categóricos
- Especificação e estimativa de equações de modelo estrutural para o comportamento da empresa e do consumidor, custo de produção, demanda de fatores, escolha discreta e outras relações de tecnologia, conforme necessário
- Técnicas estatísticas avançadas para analisar dados contínuos e categóricos
- Análise de séries temporais e implementação de modelos de previsão
- Conhecimento e experiência em trabalhar com problemas de múltiplas variáveis
- Capacidade de avaliar a correção do modelo e realizar testes de diagnóstico
- Capacidade de interpretar estatísticas ou modelos econômicos
- Conhecimento e experiência na construção de simulação de eventos discretos e modelos de simulação dinâmica
Gestão de dados
- Familiaridade com o uso de T-SQL e análises para transformação de dados e a aplicação de técnicas de análise exploratória de dados para conjuntos de dados reais muito grandes
- Atenção à integridade dos dados, incluindo redundância, precisão dos dados, valores anormais ou extremos, interações e valores ausentes.
Habilidades de Comunicação e Colaboração
- Trabalhe de forma independente e capaz de trabalhar com uma equipe de projeto virtual que pesquisará soluções inovadoras para problemas de negócios desafiadores
- Colabore com parceiros, aplique habilidades de pensamento crítico e conduza projetos analíticos de ponta a ponta
- Capacidade de comunicação superior, verbal e escrita
- Visualização de resultados analíticos de uma forma consumível por um conjunto diversificado de partes interessadas
Pacotes de software
- Pacotes avançados de software estatísticos / econométricos: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Exploração, visualização e gerenciamento de dados: T-SQL, Excel, PowerBI e ferramentas equivalentes
Qualificações:
- Necessário mínimo de 5 anos de experiência relacionada
- Pós-graduação no campo quantitativo é desejável.