O que é um cientista de dados?


181

Tendo me graduado recentemente em meu programa de doutorado em estatística, durante os últimos dois meses comecei a procurar trabalho no campo da estatística. Quase todas as empresas que eu considerei tinham um anúncio de emprego com o título de " Data Scientist ". De fato, parecia que estavam longe os dias de ver os cargos de cientista estatístico ou estatístico . Ter sido um cientista de dados realmente substituiu o que era estatístico ou eram os títulos sinônimos como eu me perguntava?

Bem, a maioria das qualificações para os empregos parecia algo que se qualificaria sob o título de estatístico. A maioria dos trabalhos queria um doutorado em estatística ( ), a maioria exigia o entendimento de projeto experimental ( ), regressão linear e anova ( ), modelos lineares generalizados ( ) e outros métodos multivariados, como PCA ( ) , bem como conhecimentos em um ambiente de computação estatística, como R ou SAS ( ). Parece que um cientista de dados é realmente apenas um codinome para estatístico.

No entanto, todas as entrevistas que comecei com a pergunta: "Você conhece os algoritmos de aprendizado de máquina?" Na maioria das vezes, encontrei-me tendo que tentar responder a perguntas sobre big data, computação de alto desempenho e tópicos sobre redes neurais, CART, máquinas de vetores de suporte, aumento de árvores, modelos não supervisionados etc. Claro, eu me convenci de que eram todos questões estatísticas no coração, mas no final de cada entrevista eu não pude deixar de sentir que sabia cada vez menos sobre o que é um cientista de dados.

Sou estatístico, mas sou cientista de dados? Eu trabalho com problemas científicos, então devo ser um cientista! E também trabalho com dados, por isso devo ser um cientista de dados! E, de acordo com a Wikipedia, a maioria dos acadêmicos concordaria comigo ( https://en.wikipedia.org/wiki/Data_science etc.)

Embora o uso do termo "ciência de dados" tenha explodido nos ambientes de negócios, muitos acadêmicos e jornalistas não vêem distinção entre ciência de dados e estatística.

Mas se eu vou a todas essas entrevistas de emprego para uma posição de cientista de dados, por que parece que eles nunca estão me fazendo perguntas estatísticas?

Bem, depois da minha última entrevista, eu queria um bom cientista e procurei dados para resolver esse problema (ei, afinal, sou cientista de dados). No entanto, depois de inúmeras pesquisas no Google mais tarde, acabei exatamente onde comecei a me sentir como se estivesse mais uma vez lutando com a definição do que era um cientista de dados. Eu não sabia exatamente o que era um cientista de dados, pois havia muitas definições dele ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ), mas parecia que todo mundo estava me dizendo que eu queria ser um:

Bem, no final do dia, o que eu descobri foi "o que é um cientista de dados" é uma pergunta muito difícil de responder. Caramba, houve dois meses inteiros em Amstat, onde eles dedicaram tempo para tentar responder a essa pergunta:

Bem, por enquanto, eu tenho que ser um estatístico sexy para ser um cientista de dados, mas espero que a comunidade validada cruzada possa lançar alguma luz e me ajudar a entender o que significa ser um cientista de dados. Todos os estatísticos não são cientistas de dados?


(Editar / Atualizar)

Eu pensei que isso poderia apimentar a conversa. Acabei de receber um e-mail da American Statistical Association sobre um trabalho que colocava na Microsoft procurando um Data Scientist. Aqui está o link: Data Scientist Position . Eu acho isso interessante porque o papel da posição afeta muitas características específicas das quais falamos, mas acho que muitas delas exigem um background muito rigoroso em estatística, além de contradizer muitas das respostas postadas abaixo. Caso o link fique inoperante, eis as qualidades que a Microsoft procura em um cientista de dados:

Requisitos e habilidades principais do trabalho:

Experiência no domínio comercial usando o Analytics

  • Deve ter experiência em vários domínios de negócios relevantes na utilização de habilidades de pensamento crítico para conceituar problemas de negócios complexos e suas soluções usando análises avançadas em conjuntos de dados de negócios do mundo real em larga escala
  • O candidato deve ser capaz de executar projetos analíticos de forma independente e ajudar nossos clientes internos a entender as descobertas e traduzi-las em ação para beneficiar seus negócios.

Modelagem Preditiva

  • Experiência em diversos setores na modelagem preditiva
  • Definição de problemas de negócios e modelagem conceitual com o cliente para obter relacionamentos importantes e definir o escopo do sistema

Estatística / Econometria

  • Análise exploratória de dados para dados contínuos e categóricos
  • Especificação e estimativa de equações de modelo estrutural para o comportamento da empresa e do consumidor, custo de produção, demanda de fatores, escolha discreta e outras relações de tecnologia, conforme necessário
  • Técnicas estatísticas avançadas para analisar dados contínuos e categóricos
  • Análise de séries temporais e implementação de modelos de previsão
  • Conhecimento e experiência em trabalhar com problemas de múltiplas variáveis
  • Capacidade de avaliar a correção do modelo e realizar testes de diagnóstico
  • Capacidade de interpretar estatísticas ou modelos econômicos
  • Conhecimento e experiência na construção de simulação de eventos discretos e modelos de simulação dinâmica

Gestão de dados

  • Familiaridade com o uso de T-SQL e análises para transformação de dados e a aplicação de técnicas de análise exploratória de dados para conjuntos de dados reais muito grandes
  • Atenção à integridade dos dados, incluindo redundância, precisão dos dados, valores anormais ou extremos, interações e valores ausentes.

Habilidades de Comunicação e Colaboração

  • Trabalhe de forma independente e capaz de trabalhar com uma equipe de projeto virtual que pesquisará soluções inovadoras para problemas de negócios desafiadores
  • Colabore com parceiros, aplique habilidades de pensamento crítico e conduza projetos analíticos de ponta a ponta
  • Capacidade de comunicação superior, verbal e escrita
  • Visualização de resultados analíticos de uma forma consumível por um conjunto diversificado de partes interessadas

Pacotes de software

  • Pacotes avançados de software estatísticos / econométricos: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
  • Exploração, visualização e gerenciamento de dados: T-SQL, Excel, PowerBI e ferramentas equivalentes

Qualificações:

  • Necessário mínimo de 5 anos de experiência relacionada
  • Pós-graduação no campo quantitativo é desejável.

6
Boa pergunta! Ultimamente tenho me perguntado sobre isso. A meu ver, parece que trabalhos que incluem cientista de dados na descrição estão procurando pessoas que possam aplicar métodos estatísticos / ML com boa escala, não necessariamente pessoas que possam lidar com a teoria. Eu ainda acho que há alguma redundância nessas descrições de cargo. Exigir um PhD provavelmente é uma superqualificação e o pessoal de RH que faz essas descrições de cargo é fortemente influenciado pelo burburinho em torno do big data. Um cientista de dados é um estatístico ou vice-versa é a principal pergunta que quero ver respondida.
Gumeo 11/02

4
Acho que este é um excelente papel que tipo de endereços dessa mudança em culturas de ser um estatístico versus ser um cientista de dados: projecteuclid.org/download/pdf_1/euclid.ss/1009213726
RustyStatistician

6
"Mas se eu vou a todas essas entrevistas de emprego para uma posição de cientista de dados, por que parece que eles nunca estão me fazendo perguntas estatísticas" ... história da minha vida ... literalmente LOL !!! Acho ciência de dados, estatística, econometria, bioestat, etc. etc. eles têm uma sobreposição considerável, mas todos usam jargões diferentes, o que dificulta a comunicação (especialmente quando você está sendo entrevistado por uma pessoa de RH que não tem conhecimento e se concentra nas palavras-chave). Esperemos que o aumento dos esforços interdisciplinares e a abertura de espírito muito necessária mudem isso no futuro.
Zachary Blumenfeld /

9
Eu acompanho o "surgimento do cientista de dados" desde que ele se tornou popular em 2008. Para mim, era e é principalmente um termo de marketing que alimenta um hype - as estatísticas das disciplinas, aprendizado de máquina, engenharia de dados, análise de dados são todas as mesmo com ênfase diferente. Parafraseando G. Box: Se forem feitas perguntas como "Você é bayesiano, freqüentador, analista de dados, criador de experimentos, cientista de dados?" Diga sim".
Momo

10
@Momo: No entanto, se alguém abrir um dos mais de 600 livros didáticos chamados "Machine Learning" (ou similar) e um dos livros didáticos "Statistics" (ou similar), haverá muito pouca sobreposição. O reconhecimento de padrões e o aprendizado de máquina do meu bispo ou o aprendizado de máquina de Murphy têm uma interseção quase nula com a Teoria da estimativa de pontos de Lehman & Casella , com a inferência estatística de Casella e Berger ou com as experiências de design e análise de dados de Maxwell e Delaney . Eles são tão diferentes que acho que as pessoas familiarizadas com um conjunto de livros podem ter problemas para ler o outro.
Ameba

Respostas:


52

Existem algumas definições humorísticas que ainda não foram dadas:

Cientista de dados: alguém que faz estatísticas em um Mac.

Eu gosto deste, pois ele joga bem no ângulo mais hype do que substância.

Cientista de dados: um estatístico que vive em San Francisco.

Da mesma forma, isso riffs na costa oeste sabor de tudo isso.

Pessoalmente, acho a discussão (em geral e aqui) um tanto chata e repetitiva. Quando eu estava pensando sobre o que eu queria - talvez um quarto de século ou mais atrás -, procurei analista quantitativo. Ainda é o que eu faço (e amo!) E, principalmente, sobrepõe e cobre o que foi dado aqui em várias respostas.

(Nota: existe uma fonte mais antiga para a citação dois, mas não consigo encontrá-la agora.)


27
+1. I find the discussion (in general, and here) somewhat boring and repetitivee conversa fútil sobre insignificantes ou novas palavras intrigantes, acrescentaria. Ainda não consigo diferenciar posteriormente entre cientistas de dados, cientistas cristãos e cientologistas de dados.
ttnphns

1
LOL @ cientologistas de dados.
dsaxton

4
E eu tiro meu chapéu para a ( muito anônima) Pessoa Muito Séria que acabou de chegar, votou mal e não deixou um motivo. Dica: não é assim que a discussão melhora.
Dirk Eddelbuettel

1
Sendo uma estatística no sul de São Francisco, que luta ativamente contra o título Data Scientist, a segunda definição chega perto demais de casa (mas eu não era o menos favorecido).
Cliff AB

1
(+1) @CliffAB Na verdade, também sou estatístico no sul de São Francisco.
RustyStatistician

87

As pessoas definem a ciência de dados de maneira diferente, mas acho que a parte comum é:

  • conhecimento prático de como lidar com dados,
  • habilidades práticas de programação.

Ao contrário do nome, raramente é "ciência". Ou seja, na ciência de dados, a ênfase está nos resultados práticos (como na engenharia), não nas provas, na pureza matemática ou no rigor característico da ciência acadêmica. As coisas precisam funcionar, e há pouca diferença se for baseado em um artigo acadêmico, no uso de uma biblioteca existente, no seu próprio código ou em um hack improvisado.

O estatístico não é necessário como programador (pode usar papel e caneta e um software dedicado). Além disso, algumas chamadas de emprego em ciência de dados não têm nada a ver com estatísticas. Por exemplo, é a engenharia de dados, como o processamento de big data, mesmo que as matemáticas mais avançadas possam estar calculando a média (pessoalmente, porém, eu não chamaria essa atividade de "ciência de dados"). Além disso, a "ciência de dados" é exagerada; portanto, trabalhos relacionados tangencialmente usam esse título - para atrair os candidatos ou elevar o ego dos trabalhadores atuais.

Gosto da taxonomia da resposta de Michael Hochster no Quora :

Cientista de dados do tipo A: OA é para análise. Esse tipo se preocupa principalmente em entender os dados ou trabalhar com eles de maneira bastante estática. O cientista de dados do tipo A é muito semelhante a um estatístico (e pode ser um), mas conhece todos os detalhes práticos de trabalhar com dados que não são ensinados no currículo de estatística: limpeza de dados, métodos para lidar com conjuntos de dados muito grandes, visualização , conhecimento profundo de um domínio específico, escrevendo bem sobre dados e assim por diante.

Cientista de Dados do Tipo B: OB é para Construção. Dados do Tipo B Os cientistas compartilham algumas informações estatísticas com o Tipo A, mas também são codificadores muito fortes e podem ser engenheiros de software treinados. O cientista de dados do tipo B está interessado principalmente em usar dados “em produção”. Eles constroem modelos que interagem com os usuários, geralmente fornecendo recomendações (produtos, pessoas que você conhece, anúncios, filmes, resultados de pesquisa).

Nesse sentido, o cientista de dados do tipo A é um estatístico que pode programar. Mas, mesmo na parte quantitativa, pode haver pessoas com mais experiência em ciência da computação (por exemplo, aprendizado de máquina) do que em estatísticas regulares, ou aquelas focadas, por exemplo, na visualização de dados.

E o diagrama de Venn da ciência de dados (aqui: hacking ~ programação):

O diagrama de Venn da ciência de dados

veja também diagramas alternativos de Venn ( isto e aquilo ). Ou até mesmo um tweet , embora humorístico, mostrando uma lista equilibrada de habilidades e atividades típicas de um cientista de dados:

um cientista de dados deve ser capaz de

Veja também este post: Cientista de dados - estatístico, programador, consultor e visualizador? .


14
Eu gosto do tweet. Eu acrescentaria que ele também deveria saber como assar pizza, cultivar vegetais ecológicos, escrever poesia e dançar salsa :)
Tim

3
Queixa menor: nem todas as "ciências" têm ênfase em "provas ou pureza matemática". Pense, por exemplo, em biologia.
Ameba

2
O que significa hackear um valor-p? Parece-me que alguém (também conhecido como cliente) tem um alvo de valor p especificado e o cientista de dados deve cortar e cortar os dados para que o objetivo de valor p possa ser alcançado. Ou deveria significar algo diferente?
Emory

2
@amory Este tweet é humorístico (é um resumo de um parágrafo de en.wikiquote.org/wiki/Time_Enough_for_Love , "Um ser humano deve poder [listar]. A especialização é para insetos."). "Hackear um valor-p" é certamente uma prática sombria (infelizmente, prevalece em algumas disciplinas acadêmicas) e (espero) está aqui como uma piada.
Piotr Migdal 11/02

4
+1 na observação sobre não chamar alguém de cientista de dados que calcula "estatísticas" simplistas em enormes conjuntos de dados. Acho que estamos saindo de uma fase na Ciência de Dados em que os Cientistas da Computação, especializados em computação de cluster (Hadoop, etc), foram rotulados como "Cientistas de Dados". Não estou desprezando essas habilidades, mas elas não são tão importantes quanto as habilidades de estatística / raciocínio / investigação e a tecnologia está indo além da redução de mapas.
Wayne

42

Há várias pesquisas no campo da ciência de dados. Eu gosto deste , porque tenta analisar os perfis de pessoas que realmente têm empregos em ciência de dados. Em vez de usar evidências anedóticas ou preconceitos dos autores, eles usam técnicas de ciência de dados para analisar o DNA do cientista de dados.

É bastante revelador olhar para as habilidades listadas pelos cientistas de dados. Observe que as 20 principais habilidades contêm muitas habilidades de TI.

No mundo de hoje, espera-se que um cientista de dados seja o alvo de todos os negócios; um aprendiz autodidata que tem uma base quantitativa sólida, aptidão para programação, infinita curiosidade intelectual e grandes habilidades de comunicação.

insira a descrição da imagem aqui

ATUALIZAR:

Sou estatístico, mas sou cientista de dados? Eu trabalho com problemas científicos, então devo ser um cientista!

Se você faz doutorado, provavelmente já é um cientista, principalmente se tiver publicado artigos e pesquisas ativas. Você não precisa ser um cientista para ser um cientista de dados. Existem algumas funções em algumas empresas, como o Walmart (veja abaixo), onde o doutorado é necessário, mas geralmente os cientistas de dados têm diplomas de bacharelado e mestrado, como você pode ver nos exemplos abaixo.

Como você pode descobrir no gráfico acima, provavelmente você precisará ter boas habilidades de programação e manipulação de dados. Além disso, muitas vezes a ciência de dados está associada a algum nível, muitas vezes "profundo", de conhecimento em aprendizado de máquina. Você certamente pode se chamar cientista de dados se tiver doutorado em estatística. No entanto, o doutorado em ciência da computação nas melhores escolas pode ser mais competitivo do que os graduados em estatística, porque eles podem ter um conhecimento estatístico aplicado bastante forte que é complementado por fortes habilidades de programação - uma combinação procurada pelos empregadores. Para combatê-los, é necessário adquirir fortes habilidades de programação, para que você seja muito competitivo. O interessante é que, geralmente, todos os PhDs em estatística têm alguma experiência em programação, mas na ciência de dados, muitas vezes o requisito é muito maior do que isso,

Para mim, a vantagem de ter um doutorado em estatística está no problema capturado no restante da frase "um pau para toda obra" que geralmente é descartado: "um mestre de ninguém". É bom ter pessoas que sabem um pouco de tudo, mas eu sempre procuro pessoas que sabem algo profundamente também, seja estatísticas ou ciência da computação, não é tão importante. O que importa é que o cara é capaz de chegar ao fundo, é uma qualidade útil quando você precisa.

A pesquisa também lista os principais empregadores dos cientistas de dados. A Microsoft está no topo, aparentemente, o que foi surpreendente para mim. Se você quiser ter uma idéia melhor do que eles estão procurando, é útil pesquisar no LinkeIn com "ciência de dados" na seção Trabalhos. Abaixo estão dois trechos dos trabalhos da MS e do Walmart no LinkedIn para fazer uma observação.

  • Cientista de Dados da Microsoft

    • 5+ anos de experiência em desenvolvimento de software na construção de sistemas / serviços de processamento de dados
    • Bacharelado ou superior em Ciência da Computação, EE ou Matemática, com especialização em Estatística, Mineração de Dados ou Aprendizado de Máquina.
    • Excelentes habilidades de programação (C #, Java, Python, Etc.) na manipulação de dados em grande escala
    • Conhecimento prático do Hadoop ou outra tecnologia de processamento de Big Data
    • O conhecimento de produtos de análise (por exemplo, R, SQL AS, SAS, Mahout etc.) é uma vantagem.

Observe como o conhecimento de pacotes stat é apenas uma vantagem, mas excelentes habilidades de programação em Java são um requisito.

  • Walmart, cientista de dados

    • Doutorado em ciência da computação ou área similar ou EM com pelo menos 2-5 anos de experiência relacionada
    • Boas habilidades de codificação funcional em C ++ ou Java (Java é altamente preferido)
    • deve ser capaz de gastar até 10% do dia de trabalho diário escrevendo código de produção em C ++ / Java / Hadoop / Hive
    • Conhecimento em nível de especialista de uma das linguagens de script, como Python ou Perl.
    • Experiência no trabalho com grandes conjuntos de dados e ferramentas de computação distribuída, um plus (Map / Reduce, Hadoop, Hive, Spark etc.)

Aqui, o PhD é o preferido, mas apenas o principal de ciência da computação é nomeado. A computação distribuída com o Hadoop ou Spark é provavelmente uma habilidade incomum para um estatístico, mas alguns físicos teóricos e matemáticos aplicados usam ferramentas semelhantes.

ATUALIZAÇÃO 2:

"Já é hora de matar o título de" cientista de dados "", diz Thomas Davenport, co-autor do artigo na Harvard Business Review em 2012 intitulado "Cientista de dados: o trabalho mais sexy do século XXI", que começou a mania dos cientistas de dados:

O que significa hoje dizer que você é - ou deseja ser ou deseja contratar - um “cientista de dados?” Infelizmente, não muito.


3
+1 por usar dados e vincular a um bom relatório orientado a dados. Mas a captura de tela precisa de uma interface de navegador da web?
Piotr Migdal 12/02

@PiotrMigdal, eu deveria aprender a cortar ou parar de ser preguiçoso
Aksakal

4
Eu cortei para você.
Ameba

1
Estou tentado a votar novamente após a atualização de hoje: esse tópico já está muito ocupado e ter uma parede gigantesca de citações para rolar para baixo não é muito útil na minha opinião ... Talvez os links + breve resumo possam ser suficientes?
Ameba

1
@amoeba, tirei a lista. É um comentário justo.
Aksakal 16/02

39

Em algum lugar que li isso (EDIT: Josh Will está explicando seu tweet ):

Cientista de dados é uma pessoa que é melhor em estatística do que qualquer programador e melhor em programação do que qualquer estatístico.

Essa citação pode ser explicada em breve por esse processo de ciência de dados . A primeira olhada nesse esquema se parece com "bem, onde está a parte da programação?", Mas se você tiver muitos dados, poderá processá-los.


11
Então, provavelmente, todo colaborador do R que é estatístico é um cientista de dados? ;)
Tim

15
Uau, eu estava apenas passeando pelo site, me perguntando sobre essa questão (considerando que há ciência de dados ) e depois de passagem aprendendo que tenho uma página da Wikipédia na Internet ? Isso foi novidade para mim ... E pelo que vale a pena, treinei Econometria, não estatística, mas trabalhei como um 'quant' por mais de 20 anos. Que é efetivamente o mesmo que a ciência dados ...
Dirk Eddelbuettel

3
-1. Eu voto negativo não porque eu não goste da citação (provavelmente era de boca aberta), mas porque a resposta é muito breve e não substancial, em particular em comparação com muitas outras respostas aqui. Eu sugiro que seja convertido em um comentário, a menos que você possa expandi-lo de alguma forma.
Ameba

3
Aqui está uma explicação desta citação por seu autor Josh Wills . Os três primeiros parágrafos após a citação são bastante pertinentes para esta discussão.
Ameba

3
@amoeba: Gostei do artigo de Josh Wills até agora: "Suspeito que ensinemos estatísticas avançadas às pessoas de uma maneira que tende a assustar os cientistas da computação, concentrando-se em modelos paramétricos que exigem muito cálculo em vez de modelos não paramétricos. que são principalmente computacionais ". Além disso, eu discordo dele de que é mais fácil ensinar estatística avançada para as pessoas de CS do que como programar bem para estatísticos (embora eu certamente concorde que a maioria dos estatísticos são péssimos programadores).
Cliff AB

15

Eu escrevi várias respostas e cada vez que elas ficavam longas e eu finalmente decidi que estava pegando uma caixa de sabão. Mas acho que essa conversa não explorou completamente dois fatores importantes:

  1. A ciência na ciência de dados. Uma abordagem científica é aquela em que você tenta destruir seus próprios modelos, teorias, características, escolhas de técnicas etc., e somente quando não pode fazê-lo você aceita que seus resultados possam ser úteis. É uma mentalidade e muitos dos melhores cientistas de dados que conheci têm formação em ciências (química, biologia, engenharia).

  2. A ciência de dados é um campo amplo. Um bom resultado em ciência de dados geralmente envolve uma pequena equipe de cientistas de dados, cada um com sua própria especialidade. Por exemplo, um membro da equipe é mais rigoroso e estatístico, outro é um programador melhor com experiência em engenharia e outro é um consultor forte com conhecimento de negócios. Os três são rápidos em aprender o assunto, e os três são curiosos e querem encontrar a verdade - ainda que dolorosa - e fazer o que é do melhor interesse do cliente (interno ou externo), mesmo que o cliente não não entendo.

A moda nos últimos anos - agora desaparecendo, eu acho - é recrutar Cientistas da Computação que dominam as tecnologias de cluster (ecossistema Hadoop, etc) e dizer que esse é o Data Scientist ideal. Eu acho que foi isso que o OP encontrou, e eu o aconselharia a pressionar seus pontos fortes em rigor, correção e pensamento científico.


@RustyStatistician: De nada. Eu acrescentaria que a consultoria na qual trabalho tem PhDs (engenharia, biologia, astronomia, ciência da computação), mas, em geral, vê os graus de MS - geralmente pessoas com experiência profissional que voltam para um MS no Analytics - como o ponto ideal. . Dito isto, sou grato todos os dias pelo meu colega de doutorado em biologia que atualmente está em um projeto em que sou o líder técnico. Juntamente com o líder do projeto, com experiência em Economia (e um MS em Analytics), somos uma ótima equipe! (Meu MS está em Inteligência Artificial.)
Wayne

+1, mas estou pensando em seu primeiro ponto dizendo que [boa] ciência de dados é uma ciência. Nesse caso, é um termo curioso e talvez enganoso (?) Porque "ciência de dados" não está estudando "dados" em si; está usando dados para estudar outra coisa, seja qual for o interesse em um determinado aplicativo. Por outro lado, por exemplo, "ciência política" deveria estudar política e "neurociência" estuda neurônios, como os nomes sugerem.
Ameba

1
@amoeba: Na verdade, eu quis dizer que um cientista de dados deve usar o método científico de Richard Feynman como parte de como eles entendem e usam dados. (Como você diz, em busca de uma aplicação específica.) É a parte estatística do trabalho: "Essa variável parece altamente significativa - é um vazamento do futuro?" Ou "Este modelo parece ser razoável, mas vamos executar o CV em todo o processo de criação do modelo e, em seguida, fazer uma nova amostragem em cima disso". Está se esforçando para refutar seu modelo / teoria e envolver outras pessoas ao fazê-lo. Não aceitar "M & Ms verde causa câncer".
Wayne

@Wayne é o único que mencionou o "método científico" até agora. Isso é tao triste.
Jgomo3

Uma compreensão da física, especialmente unidades, é necessária para quem tenta entender alguma coisa. No entanto, neste admirável mundo novo, muitas vezes é suficiente fazer observações heurísticas que têm valor preditivo abaixo do ideal como "bujões", mas não são soluções reais.
1824 Carl Carl

14

Acho que o Bitwise cobre a maior parte da minha resposta, mas vou adicionar o meu 2c.

Não, desculpe, mas um estatístico não é um cientista de dados, pelo menos com base em como a maioria das empresas define o papel hoje. Observe que a definição mudou ao longo do tempo e um desafio dos profissionais é garantir que eles permaneçam relevantes.

Compartilharei alguns motivos comuns sobre por que rejeitamos candidatos a papéis de "Cientista de Dados":

  • Expectativas sobre o escopo do trabalho. Normalmente, o DS precisa poder trabalhar de forma independente. Isso significa que não há mais ninguém para criar o conjunto de dados para ele, a fim de resolver o problema que lhe foi atribuído. Portanto, ele precisa encontrar as fontes de dados, consultá-las, modelar uma solução e, muitas vezes, também criar um protótipo que resolva o problema. Muitas vezes, isso é simplesmente a criação de um painel, um alarme ou um relatório ativo que é atualizado constantemente.
  • Comunicação . Parece que muitos estatísticos têm dificuldade em "simplificar" e "vender" suas idéias para pessoas de negócios. Você pode mostrar apenas um gráfico e contar uma história a partir dos dados de uma maneira que todos na sala possam obtê-lo? Observe que isso ocorre depois de garantir que você poderá defender todas as partes da análise se desafiado.
  • Habilidades de codificação . Não precisamos de habilidades de codificação no nível de produção, pois temos desenvolvedores para isso; no entanto, precisamos que ela seja capaz de escrever um protótipo e implantá-lo como um serviço da Web em uma instância do AWS EC2. Portanto, habilidades de codificação não significam capacidade de escrever scripts R. Eu posso adicionar fluência no Linux em algum lugar aqui provavelmente. Portanto, a barra é simplesmente mais alta do que a maioria dos estatísticos costuma acreditar.
  • SQL e bancos de dados . Não, ele não pode entender isso no trabalho, já que realmente precisamos dele para adaptar o SQL básico que ele já conhece e aprender a consultar os vários sistemas de banco de dados diferentes que usamos em toda a organização, incluindo Redshift, HIVE e Presto - cada um que usa seu próprio sabor de SQL. Além disso, aprender SQL no trabalho significa que o candidato criará problemas em todos os outros analistas até aprender a escrever consultas eficientes.
  • Aprendizado de Máquina . Normalmente, eles usaram regressão logística ou poucas outras técnicas para resolver um problema com base em um determinado conjunto de dados (estilo Kaggle). No entanto, mesmo que a entrevista comece com algoritmos e métodos, ela logo se concentra em tópicos como geração de recursos (lembre-se de que você precisa criar o conjunto de dados, não há mais ninguém para criá-lo para você), capacidade de manutenção, escalabilidade e desempenho, bem como os relacionados trade-offs. Para algum contexto, você pode conferir um artigo relevante do Google publicado no NIPS 2015.
  • Análise de texto . Não é obrigatório, mas é bom ter alguma experiência em Processamento de Linguagem Natural. Afinal, uma grande parte dos dados está em formato textual. Conforme discutido, não há mais ninguém para fazer as transformações e limpar o texto para você, a fim de torná-lo consumível por um ML ou outra abordagem estatística. Além disso, observe que hoje mesmo os graduados em CS já fizeram algum projeto que marque essa caixa.

É claro que, para um papel júnior, você não pode ter todas as opções acima. Mas quantas dessas habilidades você pode perder e seguir em frente no trabalho?

Finalmente, para esclarecer, o motivo mais comum para rejeitar os não estatísticos é exatamente a falta de conhecimento básico de estatísticas. E em algum lugar existe a diferença entre um engenheiro de dados e um cientista de dados. No entanto, os engenheiros de dados tendem a se candidatar a essas funções, pois muitas vezes acreditam que "estatística" é apenas a média, a variação e a distribuição normal. Portanto, podemos adicionar algumas palavras-chave estatísticas relevantes, mas assustadoras, nas descrições dos cargos, a fim de esclarecer o que entendemos por "estatística" e evitar a confusão.


4
Desde 2006, ensino cursos de estatística aplicada e análise de dados em programas chamados "informática comercial" em duas universidades e isso se aplica 100% ao que meus alunos aprendem. 1. Eles precisam coletar dados reais, talvez confusos, dos negócios, da web, da pesquisa etc. 2. Limpar, preparar e armazenar os dados em um banco de dados SQL do curso. 3. Faça várias análises estatísticas nos dados. 4. Prepare resumos executivos curtos de 1-2 páginas e escreva um relatório detalhado com programação literal (knitr ou similar). A partir dessa ciência de dados, a informática comercial é um curso adicional de estatística / ML, não?
Momo

4
Claro, seu curso abrange muitas das habilidades necessárias. Suponho que podemos encontrar muitas combinações, por exemplo, graduação em Ciência da Computação com alguns cursos de estatística e uma tese / estágio sobre um problema de negócios baseado em ML. No final do dia, o que importa é a profundidade e a amplitude das habilidades relevantes que o candidato traz sobre a mesa.
Iliasfl

11

Permita-me ignorar o hype e as palavras-chave. Eu acho que "Data Scientist" (ou o que você quiser chamar) é uma coisa real e diferente de um estatístico. Existem muitos tipos de posições que efetivamente são cientistas de dados, mas não recebem esse nome - um exemplo são as pessoas que trabalham em genômica.

Do meu ponto de vista, um cientista de dados é alguém que possui as habilidades e os conhecimentos necessários para projetar e executar pesquisas sobre grandes quantidades de dados complexos (por exemplo, altamente dimensionais nos quais os mecanismos subjacentes são desconhecidos e complexos).

Isso significa:

  • Programação: Ser capaz de implementar análises e pipelines, geralmente exigindo algum nível de paralelismo e interface com bancos de dados e recursos de computação de alto desempenho.
  • Ciência da Computação (algoritmos): projetar / escolher algoritmos eficientes, para que a análise escolhida seja viável e a taxa de erros seja controlada. Às vezes, isso também pode exigir conhecimento de análise numérica, otimização etc.
  • Ciência da computação / estatística (geralmente ênfase no aprendizado de máquina): projetar e implementar uma estrutura para fazer perguntas sobre os dados ou encontrar "padrões" nele. Isso incluiria não apenas o conhecimento de diferentes testes / ferramentas / algoritmos, mas também como projetar validação cruzada, validação cruzada e assim por diante.
  • Modelagem: Muitas vezes, gostaríamos de ser capazes de produzir algum modelo que forneça uma representação mais simples dos dados, de modo que possamos fazer previsões úteis e obter informações sobre os mecanismos subjacentes aos dados. Modelos probabilísticos são muito populares para isso.
  • Especialização em domínio específico: Um aspecto essencial do trabalho bem-sucedido com dados complexos é a incorporação de informações específicas do domínio. Então, eu diria que é fundamental que o cientista de dados tenha experiência no domínio, seja capaz de aprender rapidamente novos campos ou seja capaz de interagir bem com especialistas da área que possam gerar informações úteis sobre como abordar os dados .

6
E quem é estatístico, na sua opinião? Como essa lista de habilidades é diferente das habilidades que um "estatístico" deve ter?
Ameba

4
@amoeba Posso estar errado, mas muitos estatísticos não possuem algumas dessas habilidades (por exemplo, programação extensa com conjuntos de dados massivos, treinamento de pós-graduação em ciência da computação). Além disso, algumas habilidades estatísticas são irrelevantes para muitas vezes um cientista de dados (algumas teorias, alguns subcampos).
Bitwise

4
@rocinante: Eu discordo totalmente que "a programação com 'conjuntos de dados massivos' não é realmente um obstáculo". Acho que não conheço ninguém com o título "estatístico" que possa implementar software que tome decisões em tempo real com base nos pacotes recebidos em um servidor. Certamente nem todos os cientistas de dados poderiam, mas a proporção é muito maior.
Cliff AB

3
@rocinante uma boa compreensão das estatísticas é necessária, mas não suficiente na minha opinião. Em relação à profundidade / dificuldade das estatísticas versus outras habilidades, eu argumentaria que obter um bom entendimento do lado da ciência da computação é tão profundo / difícil, se não mais. Além disso, em relação às perguntas sobre a SE, você encontra esse tipo de pergunta em qualquer SE (incluindo esta) - isso não significa nada, exceto que algumas pessoas querem soluções fáceis sem entender.
Bitwise

6
A única coisa que se torna cansativa nesses debates "ciência de dados x estatística" é a sutil implicação de que os cientistas de dados são como uma raça superior de estatísticos. O fato é que, à medida que a amplitude de seu conhecimento aumenta, a profundidade diminui, e das pessoas que são melhores que ignorantes em todas as tarefas necessárias para ser um "cientista de dados", imagino que o conhecimento delas sobre a maioria dessas coisas seja bem superficial. Em geral, é extremamente difícil chegar perto de ser especialista em qualquer um dos domínios que as pessoas esperam que esses míticos cientistas de dados dominem.
dsaxton

7

Todas as ótimas respostas, no entanto, em minha experiência de procurar emprego, observei que o termo "cientista de dados" foi confundido com "analista de dados júnior" na mente dos recrutadores com quem eu estava em contato. Assim, muitas pessoas legais, sem experiência em estatística, além do curso introdutório de um período que fizeram alguns anos atrás, agora se chamam cientistas de dados. Como alguém com formação em ciência da computação e anos de experiência como analista de dados, fiz doutorado em estatística mais tarde na minha carreira pensando que isso me ajudaria a me destacar da multidão, me encontro em uma multidão inesperadamente grande de "cientistas de dados" " Eu acho que posso voltar a "estatístico"!


5
Basicamente, vejo a mesma coisa. Qualquer trabalho que solicite algum trabalho com dados ou alguma análise é chamado "Ciência de dados". Eu acho que algo muito semelhante aconteceu com "Quant" em finanças, onde qualquer um que trabalhasse com dados se chamava "Quant".
Akavall 14/02

6

Sou funcionário júnior, mas meu cargo é "cientista de dados". Acho que a resposta do Bitwise é uma descrição adequada do que fui contratado para fazer, mas gostaria de acrescentar mais um ponto com base na minha experiência cotidiana no trabalho:

Data ScienceStatistics,
StatisticsData Science.

A ciência é um processo de investigação. Quando dados são os meios pelos quais essa pesquisa é feita, a ciência de dados está acontecendo. Isso não significa que todos que experimentam ou pesquisam dados são necessariamente um cientista de dados, da mesma forma que nem todo mundo que experimenta ou pesquisa com fiação é necessariamente um engenheiro elétrico. Mas isso significa que é possível adquirir treinamento suficiente para se tornar um "investigador de dados" profissional, da mesma maneira que se pode adquirir treinamento suficiente para se tornar um eletricista profissional. Esse treinamento é mais ou menos composto pelos pontos na resposta do Bitwise, dos quais as estatísticas são um componente, mas não a totalidade.

A resposta de Piotr também é um bom resumo de todas as coisas que preciso fazer e que gostaria de saber em uma determinada semana. Até agora, meu trabalho tem ajudado a desfazer os danos causados ​​por ex-funcionários que pertenciam ao componente "Zona de perigo" do diagrama de Venn.


2
+1. Eu acho que é muito valioso neste tópico ouvir as pessoas que estão realmente empregadas como "cientistas de dados".
Ameba

(+1) @amoeba Concordo 100% com o seu sentimento.
RustyStatistician

8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science

@ caveman Eu definitivamente concordo.
RustyStatistician

1
StatisticsData ScienceStatisticsData ScienceData Science

3

Recentemente, também me interessei por ciência de dados como carreira, e quando penso no que aprendi sobre o trabalho em ciência de dados em comparação com os inúmeros cursos de estatística que fiz (e gostei!), Comecei a pensar nos cientistas de dados como cientistas da computação que voltaram sua atenção para os dados. Em particular, observei as seguintes principais diferenças. Observe, porém, que as diferenças parecem humor. O que se segue reflete apenas minhas impressões subjetivas e não reivindico generalidade. Apenas minhas impressões!

  1. Nas estatísticas, você se preocupa muito com distribuições, probabilidades e procedimentos inferenciais (como fazer testes de hipóteses, que são as distribuições subjacentes, etc.). Pelo que entendi, a ciência de dados é mais frequentemente predição e as preocupações com afirmações inferenciais são, em certa medida, absorvidas por procedimentos da ciência da computação, como validação cruzada.

  2. Nos cursos de estatística, geralmente criei meus próprios dados ou usei alguns dados prontos que estão disponíveis em um formato bastante limpo. Isso significa que ele está em um bom formato retangular, em alguma planilha do Excel ou em algo assim que se encaixa perfeitamente na RAM. A limpeza de dados certamente está envolvida, mas nunca tive que lidar com a "extração" de dados da Web, muito menos de bancos de dados que precisavam ser configurados para armazenar uma quantidade de dados que não se encaixa mais na RAM. Minha impressão é que esse aspecto computacional é muito mais dominante na ciência de dados.

  3. Talvez isso reflita minha ignorância sobre o que os estatísticos fazem em trabalhos estatísticos típicos, mas antes da ciência de dados eu nunca pensei em transformar modelos em um produto maior. Havia uma análise a ser feita, um problema estatístico a ser resolvido, algum parâmetro a ser estimado, e é isso. Na ciência de dados, parece que modelos preditivos frequentemente (embora nem sempre) são incorporados a algo maior. Por exemplo, você clica em algum lugar e, em milissegundos, um algoritmo preditivo decide o que está sendo mostrado como resultado. Então, enquanto na estatística, eu sempre me perguntei "que parâmetro podemos estimar e como o fazemos com elegância", parece que na ciência de dados o foco está mais em "o que podemos prever que é potencialmente útil em um produto de dados"? .

Novamente, o acima não tenta dar uma definição geral. Estou apenas apontando as principais diferenças que percebi. Ainda não estou em ciência de dados, mas espero fazer a transição no próximo ano. Nesse sentido, pegue meus dois centavos aqui com um grão de sal.


2

Eu digo que um cientista de dados é um papel no qual se cria resultados legíveis para os negócios para as empresas, usando os métodos para tornar o resultado estatisticamente sólido (significativo).

Se alguma parte desta definição não for seguida, falamos sobre um desenvolvedor, um verdadeiro cientista / estatístico ou um engenheiro de dados.


2

Eu sempre gosto de abordar a essência do assunto.

statistics - science + some computer stuff + hype = data science

1
Isso soa como a impressão que eu formei de "aprendizado de máquina", que encapsulo como "aprendendo a operar um software sem entender como ele realmente funciona" (injusto, é claro, mas vemos muito "aprendizado de máquina" pessoas que saem da escola que não entendem nada além do que os parâmetros de ajuste de diferentes tipos de redes neurais representam.)
jbowman

1

A ciência de dados é uma mistura multidisciplinar de inferência de dados, desenvolvimento de algoritmos e tecnologia para resolver problemas analiticamente complexos. Mas, devido à escassez de cientistas de dados, uma carreira em ciência de dados pode realmente criar inúmeras oportunidades. No entanto, as organizações estão procurando profissionais certificados do SAS, Conselho de Ciência de Dados da América (DASCA), Hortonworks etc. Espero que esta seja uma boa informação!


1

Os cientistas de dados têm habilidades muito proficientes no desenvolvimento de Python, MySQL e Java.

Eles têm um entendimento muito claro das funções analíticas, muito bem em matemática, estatística, mineração de dados, habilidades de análise preditiva e também têm um conhecimento muito bom das linguagens de codificação como Python e R.

Muitos cientistas de dados agora têm seu Ph.D. ou o mestrado deles, na verdade, de acordo com pesquisas, apenas 8% tem simplesmente um diploma de bacharel, portanto é muito mais aprofundado.

Construindo modelos estatísticos que tomam decisões com base em dados. Cada decisão pode ser difícil, por exemplo, impedir que uma página seja renderizada, ou flexível, por exemplo, atribuir uma pontuação à maliciosidade de uma página, usada por sistemas descendentes ou humanos.

Realização de experimentos de causalidade que tentam atribuir a causa raiz de um fenômeno observado. Isso pode ser feito projetando experimentos A / B ou se o experimento A / B não for possível aplicar uma abordagem epidemiológica ao problema, por exemplo, modelo causal @ Rubin

Identificação de novos produtos ou recursos provenientes do desbloqueio do valor dos dados; ser um líder de pensamento sobre o valor dos dados. Um bom exemplo disso é o recurso de recomendações de produtos que a Amazon disponibilizou pela primeira vez para um público em massa.


1
Bem não. Eu sou o mais alto possível na cadeia de trabalho de cientistas de dados e não conheço nada sobre Java, nem sou proficiente em Python, e minhas habilidades no MySQL são, na melhor das hipóteses, de qualidade genérica. No meu grupo, temos outras pessoas que conhecem pouco Python, preferindo R, e apenas uma pessoa conhece Java, mas ele principalmente codifica em R e C / C ++ (como eu.) Três pessoas conhecem Python, mas na verdade não conhecem nenhum idioma de nível inferior. Eu não quero entrar no Python v. R flame wars, ou Java v. C / C ++, mas não é de forma alguma que qualquer parte da sua lista de habilidades relacionadas à programação seja necessária.
21418 jbowman

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.