Do que se trata
Apenas conhecer técnicas é semelhante a conhecer os animais em um zoológico - você pode nomeá-los, descrever suas propriedades, talvez identificá-los na natureza.
Compreender quando usá-los, formular, criar, testar e implantar modelos matemáticos funcionais em uma área de aplicação, evitando as armadilhas - essas são as habilidades que distinguem, na minha opinião.
A ênfase deve estar na ciência , aplicando uma abordagem sistemática e científica aos problemas comerciais, industriais e comerciais. Mas isso requer habilidades mais amplas do que a mineração de dados e o aprendizado de máquina, como Robin Bloor argumenta de maneira persuasiva em "A Data Science Rant" .
Então, o que se pode fazer?
Áreas de aplicação : aprenda sobre várias áreas de aplicação próximas ao seu interesse ou do seu empregador. A área geralmente é menos importante do que entender como o modelo foi construído e como foi usado para agregar valor a essa área. Modelos bem-sucedidos em uma área geralmente podem ser transplantados e aplicados a diferentes áreas que funcionam de maneira semelhante.
Competições : experimente o site da competição de mineração de dados Kaggle , de preferência se juntando a uma equipe de outras pessoas. (Kaggle: uma plataforma para competições de modelagem preditiva. Empresas, governos e pesquisadores apresentam conjuntos de dados e problemas e os melhores cientistas de dados do mundo competem para produzir as melhores soluções.)
Fundamentos : Existem quatro: (1) sólida base em estatística, (2) razoavelmente boas habilidades de programação, (3) compreensão de como estruturar consultas de dados complexas, (4) construção de modelos de dados. Se houver algum fraco, é um ponto importante para começar.
Algumas citações a esse respeito:
`` Aprendi muito cedo a diferença entre saber o nome de algo e saber algo. Você pode saber o nome de um pássaro em todas as línguas do mundo, mas quando terminar, não saberá absolutamente nada sobre o pássaro ... Então, vamos olhar para o pássaro e ver o que ele está fazendo. o que conta. '' - Richard Feynman, "A criação de um cientista", p14 em O que você se importa com o que as outras pessoas pensam, 1988
Tenha em mente:
`` A combinação de habilidades necessárias para realizar esses projetos de ciência de negócios [ciência de dados] raramente reside em uma pessoa. Alguém poderia de fato ter adquirido amplo conhecimento nas áreas triplas de (i) o que a empresa faz, (ii) como usar estatísticas e (iii) como gerenciar dados e fluxos de dados. Nesse caso, ele ou ela poderia realmente afirmar ser um cientista de negócios (também conhecido como "cientista de dados") em um determinado setor. Mas esses indivíduos são quase tão raros quanto os dentes de galinha. '' - Robin Bloor, A Data Science Rant , agosto de 2013, Inside Analysis
E finalmente:
`` O mapa não é o território ''. - Alfred Korzybski, 1933, Science & Sanity.
Os problemas aplicados mais reais não são acessíveis apenas a partir do `` mapa ''. Para fazer coisas práticas com a modelagem matemática, é preciso estar distraído com detalhes, sutilezas e exceções. Nada pode substituir o conhecimento do território em primeira mão.