Os termos são nebulosos porque são novos
Por estar no meio de uma pesquisa de emprego no campo 'ciência de dados', acho que há duas coisas acontecendo aqui. Primeiro, os trabalhos são novos e não há definições definidas de vários termos; portanto, não há acordo comum sobre a correspondência de termos com as descrições dos trabalhos. Compare isso com 'desenvolvedor da Web' ou 'desenvolvedor de back-end'. Esses são dois trabalhos semelhantes que têm razoavelmente bem acordado e descrições distintas.
Segundo, muitas pessoas que publicam trabalhos e entrevistas iniciais não sabem muito bem para o que estão contratando. Isso é particularmente verdadeiro no caso de pequenas e médias empresas que contratam recrutadores para encontrar candidatos para eles. São esses intermediários que publicam as descrições dos cargos no CareerBuilder ou em qualquer fórum. Isso não quer dizer que muitos deles não sabem o que fazem, muitos conhecem bem as empresas que representam e os requisitos do local de trabalho. Mas, sem termos bem definidos para descrever diferentes trabalhos específicos, geralmente são gerados títulos nebulosos.
Existem três divisões gerais do campo
Na minha experiência, existem três divisões gerais do 'espaço de trabalho' da ciência de dados.
O primeiro é o desenvolvimento de técnicas matemáticas e computacionais que possibilitam a ciência de dados. Isso abrange coisas como pesquisa estatística sobre novos métodos de aprendizado de máquina, a implementação desses métodos e a construção de infraestrutura computacional para empregar esses métodos no mundo real. Esta é a divisão mais distante do cliente e a menor divisão. Grande parte desse trabalho é realizada por acadêmicos ou pesquisadores das grandes empresas (Google, Facebook, etc.). Isso é para coisas como desenvolver o TensorFlow do Google, as redes neurais SPSS da IBM ou qualquer que seja o próximo grande banco de dados de gráficos.
A segunda divisão está usando as ferramentas subjacentes para criar pacotes específicos de aplicativos para executar qualquer análise de dados que seja necessária. As pessoas são contratadas para usar Python ou R ou o que quer que seja para criar capacidade de análise em algum conjunto de dados. Muito desse trabalho, na minha experiência, envolve fazer a 'lavagem de dados', transformando dados brutos, sob qualquer forma, em algo utilizável. Outra grande parte desse trabalho é a base de dados; descobrindo como armazenar os dados de uma maneira que possa ser acessada em qualquer linha do tempo em que você precisar. Este trabalho não exige muito ferramentas, mas o uso de bibliotecas de banco de dados, estatísticas e análises gráficas existentes para produzir alguns resultados.
A terceira divisão está produzindo análises a partir dos dados recém-organizados e acessíveis. Esse é o lado mais voltado para o cliente, dependendo da sua organização. Você precisa produzir análises que os líderes de negócios possam usar para tomar decisões. Isso seria o menos técnico das três divisões; muitos empregos são híbridos entre a segunda e a terceira divisões neste momento, uma vez que a ciência de dados está em sua infância. Mas, no futuro, eu suspeito fortemente que haverá uma divisão mais limpa entre esses dois empregos, com as pessoas ganhando o segundo emprego precisando de uma educação técnica, ciência da computação ou estatística, e esse terceiro emprego precisando apenas de um ensino geral.
Em geral, os três poderiam se descrever como 'cientistas de dados', mas apenas os dois primeiros poderiam se descrever como 'engenheiros de aprendizado de máquina'.
Conclusão
Por enquanto, você terá que descobrir o que cada trabalho implica. Meu trabalho atual me contratou como 'analista', para fazer algumas coisas de aprendizado de máquina. Mas, quando começamos a trabalhar, ficou claro que a base de dados da empresa era inadequada e agora provavelmente 90% do meu tempo é gasto trabalhando nos bancos de dados. Agora, minha exposição ao aprendizado de máquina está executando rapidamente coisas através do pacote scikit-learn que parecer mais apropriado, e enviando arquivos csv aos analistas da terceira divisão para fazer apresentações em powerpoint para o cliente.
O campo está em fluxo. Muitas organizações estão tentando adicionar a tomada de decisões em ciência de dados a seus processos, mas sem saber claramente o que isso significa. Não é culpa deles, é muito difícil prever o futuro, e as ramificações de uma nova tecnologia nunca são muito claras. Até que o campo esteja mais estabelecido, muitos empregos em si serão tão nebulosos quanto os termos usados para descrevê-los.
Data scientist
soa como uma designação com pouca clareza sobre qual será o trabalho real, enquantomachine learning engineer
é mais específico. No primeiro caso, sua empresa fornecerá um objetivo e você precisará descobrir qual abordagem (aprendizado de máquina, processamento de imagens, rede neural, lógica difusa etc.) você usaria. No segundo caso, sua empresa já se reduziu a qual abordagem deve ser usada.