A ciência de dados é igual à mineração de dados?


22

Estou certo de que a ciência de dados, como será discutido neste fórum, possui vários sinônimos ou pelo menos campos relacionados, nos quais grandes dados são analisados.

Minha pergunta particular é em relação à mineração de dados. Tive uma aula de graduação em Data Mining há alguns anos. Quais são as diferenças entre Data Science e Data Mining e, em particular, o que mais eu preciso considerar para me tornar proficiente em Data Mining?


Quanto à segunda parte da sua pergunta, propus uma discussão em meta: meta.datascience.stackexchange.com/questions/5/… Como isso é recebido pode moldar se sua preocupação com a proficiência é responsável ou está dentro do escopo.
Clayton

Respostas:


25

O @statsRus começa a estabelecer as bases para sua resposta em outra pergunta /datascience/1/what-characterises-the-difference-between-data-science-and-statistics :

  • Coleta de dados : raspagem na web e pesquisas on-line
  • Manipulação de dados : recodificando dados confusos e extraindo significado de dados de redes sociais e linguísticas
  • Escala de dados : trabalhando com conjuntos de dados extremamente grandes
  • Mineração de dados : localizando padrões em conjuntos de dados grandes e complexos, com ênfase em técnicas algorítmicas
  • Comunicação de dados : ajudando a transformar dados "legíveis por máquina" em informações "legíveis por humanos" via visualização

Definição

pode ser vista como um item (ou conjunto de habilidades e aplicativos) no kit de ferramentas do cientista de dados. Gosto de como ele separa a definição de mineração da coleção em uma espécie de jargão específico para o comércio.

No entanto, acho que mineração de dados seria sinônimo de coleta de dados em uma definição coloquial em inglês dos EUA.

Quanto a onde ir para se tornar proficiente? Penso que essa pergunta é muito ampla, como é atualmente declarada, e receberia respostas baseadas principalmente em opiniões. Talvez se você pudesse refinar sua pergunta, talvez seja mais fácil ver o que está fazendo.


11

O que a @Clayton postou parece certo para mim, para esses termos, e para a "mineração de dados" ser uma ferramenta do cientista de dados. No entanto, eu realmente não usei o termo "coleta de dados" e não me parece sinônimo de "mineração de dados".

Minha própria resposta à sua pergunta: não , os termos não são os mesmos. As definições podem estar frouxas nesse campo, mas eu não vi esses termos usados ​​de forma intercambiável. No meu trabalho, às vezes as usamos para diferenciar objetivos ou metodologias. Para nós, trata mais de testar uma hipótese e, normalmente, os dados foram coletados apenas para esse fim. trata mais de examinar dados existentes, procurar estrutura e talvez gerar hipóteses. A mineração de dados pode começar com uma hipótese, mas geralmente é muito fraca ou geral e pode ser difícil de resolver com confiança. (Cavar o tempo suficiente e você encontrará algo , embora possa vir a ser pirita.)

No entanto, também usamos "ciência de dados" como um termo mais amplo, para incluir "mineração de dados". Também falamos sobre "modelagem de dados", que para nós trata de encontrar um modelo para um sistema de interesse, com base em dados e em outros conhecimentos e objetivos. Às vezes, isso significa tentar encontrar a matemática que explica o sistema real, e às vezes significa encontrar um modelo preditivo que seja bom o suficiente para um propósito.


8

Minha resposta seria não. Considero a mineração de dados um dos campos diversos da ciência de dados. A mineração de dados é mais considerada quando se trata de produzir perguntas, em vez de respondê-las. É freqüentemente denominado como "detectando algo novo", quando comparado à ciência de dados, onde o cientista de dados tenta resolver problemas complexos para conseguir alcançar seus resultados finais. No entanto, ambos os termos têm muitos pontos em comum entre eles. Por exemplo ... se você tem uma terra agrícola onde pretende encontrar as plantas afetadas .. Aqui a mineração de dados espaciais desempenha um papel fundamental na execução deste trabalho. Há boas chances de você acabar descobrindo não apenas as plantas afetadas. na terra, mas também na medida em que eles são afetados ....... isso é algo que não é possível com a ciência de dados.


Sua resposta é muito boa, e também seria bom se você adicionasse um pequeno exemplo, para enfatizar seu argumento sobre a mineração de dados mais relacionada à detecção de algo novo, em vez de tentar resolver e alcançar resultados .
Rubens

6

Existem muitas sobreposições entre mineração de dados e ciência de dados. Eu diria que as pessoas com o papel de datamining estão preocupadas com a coleta de dados e a extração de recursos de conjuntos de dados não filtrados, desorganizados e principalmente brutos / selvagens. Alguns dados muito importantes podem ser difíceis de extrair, não relacionados aos problemas de implementação, mas porque podem ter artefatos estrangeiros.

Por exemplo. se eu precisasse de alguém para examinar os dados financeiros das declarações fiscais escritas nos anos 70, que foram digitalizadas e lidas por máquina para descobrir se as pessoas economizavam mais em seguro de carro; um dataminer seria a pessoa a receber.

Se eu precisasse de alguém para examinar a influência do perfil da Nike no Twitter nos tweets do Brasil e identificar os principais aspectos positivos do perfil, procuraria um cientista de dados.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.