Ou mais ainda "será"? O Big Data torna as estatísticas e os conhecimentos relevantes ainda mais importantes, mas parece subestimar a teoria de amostragem.
Eu já vi esse hype em torno de 'Big Data' e não posso deixar de pensar que "por que" eu gostaria de analisar tudo ? Não havia uma razão para a "teoria da amostragem" ser projetada / implementada / inventada / descoberta? Não tenho o objetivo de analisar toda a 'população' do conjunto de dados. Só porque você pode fazer isso não significa que você deveria (a estupidez é um privilégio, mas você não deve abusar dela :)
Portanto, minha pergunta é a seguinte: É estatisticamente relevante analisar todo o conjunto de dados? O melhor que você poderia fazer seria minimizar o erro se você fizesse amostragem. Mas o custo de minimizar esse erro realmente vale a pena? O "valor da informação" realmente vale o esforço, o custo do tempo, etc., que é analisado no big data em computadores massivamente paralelos?
Mesmo se analisássemos toda a população, o resultado ainda seria, na melhor das hipóteses, um palpite com maior probabilidade de estar certo. Provavelmente um pouco mais alto do que a amostragem (ou seria muito mais?) Será que os insights obtidos com a análise da população versus a análise da amostra diferem amplamente?
Ou devemos aceitá-lo como "os tempos mudaram"? A amostragem como uma atividade pode se tornar menos importante, dado poder computacional suficiente :)
Nota: Não estou tentando iniciar um debate, mas procurando uma resposta para entender por que o big data faz o que faz (ou seja, analisa tudo) e desconsidera a teoria da amostragem (ou não?)