Qual é a definição de "Big Data"?


23

Existe um?

Todas as definições que posso encontrar descrevem o tamanho, complexidade / variedade ou velocidade dos dados.

A definição da Wikipedia é a única que encontrei com um número real

Os tamanhos de big data são um alvo em constante movimento, a partir de 2012, variando de algumas dezenas de terabytes a muitos petabytes de dados em um único conjunto de dados.

No entanto, isso aparentemente contradiz a definição do MIKE2.0 , mencionada no próximo parágrafo, que indica que "dados grandes" podem ser pequenos e que 100.000 sensores em uma aeronave que cria apenas 3 GB de dados podem ser considerados grandes.

IBM apesar de dizer que:

O big data é mais simples do que uma questão de tamanho.

enfatizaram o tamanho em sua definição .

O'Reilly também enfatizou "volume, velocity and variety" . Embora bem explicada, e com mais profundidade, a definição parece ser um re-hash dos outros - ou vice-versa, é claro.

Eu acho que um computador semanais artigo título resume uma série de artigos bastante bem "O que é big data e como ele pode ser usado para ganhar vantagem competitiva" .

Mas o ZDNet vence com o seguinte a partir de 2012 :

"Big Data" é um slogan que vem borbulhando do nicho de computação de alto desempenho do mercado de TI ... Se alguém se deparar com as apresentações de dez fornecedores de tecnologia, é provável que quinze definições diferentes sejam apresentadas. Cada definição, é claro, tende a apoiar a necessidade dos produtos e serviços desse fornecedor. Imagine isso.

Basicamente, "big data" é "grande" de alguma forma ou forma.

O que é "grande"? É quantificável no momento atual?

Se "grande" não é quantificável, existe uma definição que não se baseie apenas em generalidades?


7
"O que é" grande "? É quantificável no momento atual?". Certo. Big é mais do que você pode manipular no momento atual;)
Oded

1
@Oded, você precisa definir "manipular" e depois :-).
Ben

14
Se você precisar perguntar, o seu não é grande o suficiente para contar. ;)
FrustratedWithFormsDesigner

@ Ben - que é definido de forma diferente para cada indivíduo e sistema de ...
Oded

4
"Grande" provavelmente se refere a "difícil de manusear". O suficiente para não caber na memória, encher o disco, ter tempo para transferir através da rede, etc.

Respostas:


42

Não há um; é um chavão.

O delineador, porém, é que seus dados estão além dos recursos dos sistemas tradicionais. Os dados são grandes demais para serem armazenados no disco maior, as consultas demoram muito tempo sem otimização especial, a rede ou o disco não suporta o fluxo de tráfego recebido, uma visualização de dados antiga simples não processa a visualização da forma / tamanho / amplitude de dados ...

Basicamente, seus dados estão além de um ponto de inflexão mal definido, onde "basta adicionar mais hardware" não será suficiente.


+1 e, além disso, o que conta como "grande" está sempre mudando à medida que o hardware é atualizado e as ferramentas previamente personalizadas se tornam maduras, padronizadas e vendidas comercialmente para lidar com esses problemas.
FrustratedWithFormsDesigner

Em outras palavras: não, não faço ideia, não, não :-).
Ben

Além disso, antes que o big data se tornasse grande, muitas empresas e institutos de pesquisa já faziam o big data. Somente agora, com todos os desafios de mídia social / big data on-line, ele se tornou o fluxo principal.
Paul Hiemstra

2

Conforme indicado no link Oracle (comentário por Immad Careem), oracle.com/us/technologies/big-data/index.html. O Big Data é tudo o que não é um dado relacional armazenado em um RDBMS. Poucos anos antes do hype, eram apenas "muitos dados". Agora, ele cresceu e foi promovido pelos profissionais de marketing para ser algum tipo de dado especial.

Existem vários motivos secundários (além do marketing) para considerar o Big Data uma coisa real.

  1. Invenção do Mapa-Redução
  2. Tecnologias NOSQL como Hadoop
  3. Alguma evolução no RDBMS tradicional influenciada pela demanda de tipos de dados não estruturados
  4. Possivelmente algumas tecnologias de hardware oferecidas pela corporação EMC2

2
"Invenção do mapa-redução"? Você só pode estar brincando.
Telastyn

1
"Tudo o que não são dados relacionais" é uma definição que só pode vir de alguém tão centralizado em RDB quanto Oracle (e está errado). Sob essa definição, todo índice SolR, todo banco de dados MongoDB e todo Berkley DB são "big data". E isso é estúpido.
Joachim Sauer

0

Usando a resposta de Doug Laney como ponto de partida, fizemos uma engenharia reversa de uma lista de definições de Big Data, agora com mais de 30 anos e que estão se fortalecendo. Nossa lista de definições para "Big Data" está localizada aqui .

Congratulamo-nos com correções, entradas, gráficos, etc.


-1

É ótimo ver O'Reilly e outros finalmente se agarrarem aos 3Vs de big data do Gartner que introduzimos pela primeira vez há 11 anos. Para referência, aqui está a peça original que escrevi em 2001: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

A definição atualizada recentemente do Gartner também reconhece o aspecto do valor: "Big Data são ativos de informação com volumes, velocidades e / ou variedade que exigem formas inovadoras de processamento de informações para descoberta aprimorada de insights, tomada de decisão e automação de processos".

Também desenvolvemos um método para quantificar a magnitude dos dados ao longo dos três vetores que são prescritivos em termos de adoção de tecnologia. No entanto, não posso compartilhá-lo publicamente.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.