Como a ciência de dados está relacionada ao aprendizado de máquina?


7

Passei por essa comparação de disciplinas analíticas e essa perspectiva de aprendizado de máquina , mas não estou encontrando respostas sobre o seguinte:

  1. Como a ciência de dados está relacionada ao aprendizado de máquina?
  2. Como isso não está relacionado ao Machine Learning?

Provavelmente essa pergunta deveria existir como wiki da comunidade.
Shagun Sodhani

Respostas:


6

A ciência de dados é um conceito muito mais amplo que o aprendizado de máquina. Começa com a visualização simples de dados e as estatísticas descritivas para obter insights, manipulações como limpeza para preparar dados. Antes de poder usar alguns algoritmos de ML.

Basicamente, pilhas enormes como bigdata, visualização e pré-processamento de dados estão fora do escopo de aprendizado de máquina. E todos eles são parte integrante da "Ciência de dados".

Imagem em alta resolução: https://whatsthebigdata.files.wordpress.com/2013/07/datascientistmap.png


onde está a imagem no tamanho original?
Walter Tross


4

O Machine Learning tenta criar sistemas que podem aprender com os dados. Como tal, ele pode ser usado em uma ampla variedade de configurações, por exemplo, para fazer com que os robôs aprendam a andar ou a treinar agentes virtuais para jogar videogames .

A ciência de dados se preocupa com a extração de conhecimento dos dados. Para fazer isso, ele usa várias técnicas diferentes de diferentes disciplinas. O aprendizado de máquina inclui algumas técnicas que podem ser muito úteis para um cientista de dados, como aprendizado profundo, árvores de decisão e diferentes algoritmos de agrupamento. No entanto, o aprendizado de máquina tem mais a oferecer do que o Data Science usa e o Data Science não depende apenas do Machine Learning.


3

A ciência de dados é muito mais ampla. É um termo genérico que, no momento, não tem uma definição muito clara. Mas a ciência de dados inclui todas as habilidades e técnicas necessárias para entender os dados com alta velocidade (chega rapidamente), volume (há muito) ou variabilidade (é confuso, como o processamento de linguagem natural). Isso significa que certamente inclui aprendizado de máquina e IA, mas também trata das ferramentas que se pode usar em uma situação do mundo real, como SQL, Hadoop ou Spark (e informações relacionadas, como conhecimento de programação paralela). Além disso, a ciência de dados pode ou não incluir o aspecto da comunicação, como criar bons gráficos e usar o Excel.

Basicamente, a ciência de dados é ML +.


3

A ciência de dados é, como outros observaram, um termo muito mais amplo que o aprendizado de máquina. A aplicação de técnicas de aprendizado de máquina é um aspecto da ciência de dados. A ciência de dados, de maneira mais geral, é a ciência de derivar conhecimento dos dados. O termo foi cunhado em 1960 e continuou evoluindo para descrever o fluxo e a interação da definição de problemas, coleta de dados, transformação de dados, modelagem / análise de dados e tomada de decisão. Então, para responder sua pergunta especificamente:

  1. O aprendizado de máquina auxilia a ciência de dados, fornecendo um conjunto de algoritmos para modelagem / análise de dados (por meio do treinamento de algoritmos de aprendizado de máquina), tomada de decisão (por meio de streaming, aprendizado on-line, testes em tempo real que são todos os tópicos do aprendizado de máquina) e até preparação de dados (algoritmos de aprendizado de máquina detectam automaticamente anomalias nos dados).
  2. A Data Science reúne várias idéias / algoritmos retirados do aprendizado de máquina para criar uma solução e, ao fazer isso, empresta muitas idéias das estatísticas tradicionais, conhecimentos de domínio e matemática básica. Dessa maneira, a ciência de dados é o processo de solução de um caso de uso, fornecendo uma solução, em oposição ao aprendizado de máquina, que é uma engrenagem importante nessa solução.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.