Drew Conway publicou o Data Science Venn Diagram , com o qual concordo plenamente:
Por um lado, você realmente deve ler o post dele. Por outro lado, posso oferecer minha própria experiência: minha experiência no assunto (que eu gosto mais como termo do que "Experiência Substantiva", porque você também deve realmente ter "Experiência Substancial" em matemática / estatísticas e hackers) está no negócios de varejo, minhas estatísticas / matemática são previsões e estatísticas inferenciais, e minhas habilidades de hackers estão em R.
Desse ponto de vista, posso conversar e entender os varejistas, e alguém que não tenha pelo menos um conhecimento passageiro desse campo terá que enfrentar uma curva acentuada de aprendizado em um projeto com varejistas. Como um show paralelo, faço estatísticas em psicologia, e é exatamente o mesmo lá. E mesmo com algum conhecimento da parte de hackers / matemática / estatísticas do diagrama, eu teria dificuldade em me atualizar, digamos, na pontuação de crédito ou em algum outro novo campo de assunto.
Uma vez que você tem uma certa quantidade de matemática / stats e habilidades de hacker, é muito melhor para adquirir uma base em uma ou mais disciplinas do que em adicionar ainda uma outra linguagem de programação para suas habilidades de hacker, ou aindaoutro algoritmo de aprendizado de máquina para seu portfólio de matemática / estatísticas. Afinal, uma vez que você tenha uma sólida base em matemática / estatísticas / hackers, poderá, se necessário, aprender essas novas ferramentas da Web ou de livros em um período relativamente curto. Mas a experiência no assunto, por outro lado, provavelmente você não poderá aprender do zero se começar do zero. E os clientes preferem trabalhar com algum cientista de dados A que entende seu campo específico do que com outro cientista de dados B que primeiro precisa aprender o básico - mesmo que B seja melhor em matemática / estatísticas / hackers.
Claro, tudo isso também significa que você nunca se tornará um especialista em nenhum dos três campos. Mas tudo bem, porque você é um cientista de dados, não um programador, estatístico ou especialista no assunto. Sempre haverá pessoas nos três círculos separados com quem você poderá aprender. Que faz parte do que eu mais gosto em ciência de dados.
EDIT: Algum tempo e algumas reflexões depois, gostaria de atualizar este post com uma nova versão do diagrama. Ainda acho que as habilidades de hackers, conhecimentos de matemática e estatística e conhecimentos substanciais (abreviados para "Programação", "Estatística" e "Negócios" para legibilidade) são importantes ... mas acho que o papel da comunicação também é importante. Todas as informações que você obtém ao aproveitar seus conhecimentos sobre hackers, estatísticas e negócios não farão muita diferença, a menos que você possa comunicá-las a pessoas que podem não ter essa mistura única de conhecimento. Pode ser necessário explicar suas informações estatísticas a um gerente de negócios que precisa estar convencido de gastar dinheiro ou alterar processos. Ou para um programador que não pensa estatisticamente.
Então, aqui está o novo diagrama de Venn da ciência de dados, que também inclui a comunicação como um ingrediente indispensável. Eu rotulei as áreas de maneira a garantir o máximo de chamas, além de ser fácil de lembrar.
Comente.
Código R:
draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
tt <- seq(0,2*pi,length.out=1000)
foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)
png("Venn.png",width=600,height=600)
opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)
name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
name(8,62,"Communi-\ncation",cex=1.5,pos=3)
name(30,78,"Statistics",cex=1.5)
name(70,78,"Programming",cex=1.5)
name(92,62,"Business",cex=1.5,pos=3)
name(10,45,"Hot\nAir")
name(90,45,"The\nAccountant")
name(33,65,"The\nData\nNerd")
name(67,65,"The\nHacker")
name(27,50,"The\nStats\nProf")
name(73,50,"The\nIT\nGuy")
name(50,55,"R\nCore\nTeam")
name(38,38,"The\nGood\nConsultant")
name(62,38,"Drew\nConway's\nData\nScientist")
name(50,24,"The\nperfect\nData\nScientist!")
name(31,18,"Comp\nSci\nProf")
name(69,18,"The\nNumber\nCruncher")
name(42,11,"Head\nof IT")
name(58,11,"Ana-\nlyst")
name(50,5,"The\nSalesperson")
par(opar)
dev.off()