Ciência de dados sem o conhecimento de um tópico específico, vale a pena seguir como carreira? [fechadas]


15

Recentemente, tive uma conversa com alguém e mencionei meu interesse na análise de dados e com quem pretendia aprender as habilidades e ferramentas necessárias. Eles me sugeriram que, embora seja ótimo aprender as ferramentas e desenvolver as habilidades, há pouco sentido em fazê-lo, a menos que eu tenha conhecimento especializado em um campo específico.

Eles basicamente resumiram que eu seria como um construtor com uma pilha de ferramentas que poderiam construir algumas caixas de madeira e que poderiam construir coisas melhores (cabines, armários etc.), mas sem o conhecimento de um campo específico eu nunca ser um construtor para quem um produto específico chegaria.

Alguém encontrou isso ou tem alguma opinião sobre o que fazer com isso? Parece que, se fosse verdade, seria preciso aprender os aspectos das ciências de dados e aprender um novo campo apenas para se tornar especializado.


Embora sua pergunta seja válida, este não é o lugar certo para ela. Questões relacionadas à carreira são consideradas fora de tópico aqui.
Sheldonkreger

Não está claro o que você está perguntando - é melhor aprender ferramentas ou reunir conhecimento de domínio? provavelmente muito aberto e baseado em opiniões para o StackExchange.
Sean Owen

Respostas:


43

Drew Conway publicou o Data Science Venn Diagram , com o qual concordo plenamente:

Diagrama de Venn da ciência de dados

Por um lado, você realmente deve ler o post dele. Por outro lado, posso oferecer minha própria experiência: minha experiência no assunto (que eu gosto mais como termo do que "Experiência Substantiva", porque você também deve realmente ter "Experiência Substancial" em matemática / estatísticas e hackers) está no negócios de varejo, minhas estatísticas / matemática são previsões e estatísticas inferenciais, e minhas habilidades de hackers estão em R.

Desse ponto de vista, posso conversar e entender os varejistas, e alguém que não tenha pelo menos um conhecimento passageiro desse campo terá que enfrentar uma curva acentuada de aprendizado em um projeto com varejistas. Como um show paralelo, faço estatísticas em psicologia, e é exatamente o mesmo lá. E mesmo com algum conhecimento da parte de hackers / matemática / estatísticas do diagrama, eu teria dificuldade em me atualizar, digamos, na pontuação de crédito ou em algum outro novo campo de assunto.

Uma vez que você tem uma certa quantidade de matemática / stats e habilidades de hacker, é muito melhor para adquirir uma base em uma ou mais disciplinas do que em adicionar ainda uma outra linguagem de programação para suas habilidades de hacker, ou aindaoutro algoritmo de aprendizado de máquina para seu portfólio de matemática / estatísticas. Afinal, uma vez que você tenha uma sólida base em matemática / estatísticas / hackers, poderá, se necessário, aprender essas novas ferramentas da Web ou de livros em um período relativamente curto. Mas a experiência no assunto, por outro lado, provavelmente você não poderá aprender do zero se começar do zero. E os clientes preferem trabalhar com algum cientista de dados A que entende seu campo específico do que com outro cientista de dados B que primeiro precisa aprender o básico - mesmo que B seja melhor em matemática / estatísticas / hackers.

Claro, tudo isso também significa que você nunca se tornará um especialista em nenhum dos três campos. Mas tudo bem, porque você é um cientista de dados, não um programador, estatístico ou especialista no assunto. Sempre haverá pessoas nos três círculos separados com quem você poderá aprender. Que faz parte do que eu mais gosto em ciência de dados.


EDIT: Algum tempo e algumas reflexões depois, gostaria de atualizar este post com uma nova versão do diagrama. Ainda acho que as habilidades de hackers, conhecimentos de matemática e estatística e conhecimentos substanciais (abreviados para "Programação", "Estatística" e "Negócios" para legibilidade) são importantes ... mas acho que o papel da comunicação também é importante. Todas as informações que você obtém ao aproveitar seus conhecimentos sobre hackers, estatísticas e negócios não farão muita diferença, a menos que você possa comunicá-las a pessoas que podem não ter essa mistura única de conhecimento. Pode ser necessário explicar suas informações estatísticas a um gerente de negócios que precisa estar convencido de gastar dinheiro ou alterar processos. Ou para um programador que não pensa estatisticamente.

Então, aqui está o novo diagrama de Venn da ciência de dados, que também inclui a comunicação como um ingrediente indispensável. Eu rotulei as áreas de maneira a garantir o máximo de chamas, além de ser fácil de lembrar.

Comente.

diagrama de Venn da nova ciência de dados

Código R:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()

1
Fui trazido aqui por uma postagem de blog que faz referência ao seu diagrama atualizado. Eu acho que isso é uma grande melhoria na versão original do Conway, embora eu não consiga superar a noção - implícita no tamanho da sobreposição - de que um professor de estatística é alguém com habilidades iguais em estatística e comunicação.
Robert de Graaf

1

Certamente você pode. As empresas estão clamando por cientistas de dados. Tenha cuidado, porém, para que todos interpretem o termo de maneira diferente. Dependendo da empresa, você pode ser solicitado a fazer qualquer coisa, de estatísticas a escrever código de produção. Qualquer um deles é um trabalho de período integral e você deve estar preparado para os dois; portanto, pedir um profundo conhecimento especializado além do que não seja razoável, na minha opinião, e as empresas com as quais conversei enfatizaram as outras duas áreas ( especialmente a programação). No entanto, descobri que ajuda a estar familiarizado com os tipos de problemas que você pode enfrentar. Dependendo do setor, isso pode ser detecção de anomalias, recomendação / personalização, previsão, ligação de registros, etc. Essas são coisas que você pode aprender como exemplos ao mesmo tempo em que matemática e programação.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.