"Big data" está em toda parte na mídia. Todo mundo diz que "big data" é algo importante para 2012, por exemplo, o KDNuggets faz pesquisas sobre tópicos importantes para 2012 . No entanto, tenho profundas preocupações aqui. Com o big data, todo mundo parece feliz apenas em conseguir alguma coisa . Mas não estamos violando todos os princípios estatísticos clássicos, como teste de hipóteses e amostragem representativa?
Desde que façamos apenas previsões sobre o mesmo conjunto de dados, tudo bem. Portanto, se eu usar os dados do Twitter para prever o comportamento do usuário, provavelmente tudo bem. No entanto, o uso de dados do Twitter para prever, por exemplo, eleições, negligencia completamente o fato de que os usuários do Twitter não são uma amostra representativa para toda a população. Além disso, a maioria dos métodos não será capaz de diferenciar entre um verdadeiro humor "popular" e uma campanha. E o twitter está cheio de campanhas. Portanto, ao analisar o Twitter, você acaba medindo campanhas e bots rapidamente. (Veja, por exemplo, "O Yahoo prediz os vencedores políticos da América"que está cheio de perguntas e "análise de sentimentos é muito melhor". Eles previram que "Romney tem mais de 90% de probabilidade de ganhar a indicação e de ganhar a primária da Carolina do Sul" (ele tinha 28%, enquanto Gingrich tinha 40% nessa primária).
Você conhece outros desses grandes dados falham ? Lembro-me mais ou menos que um cientista previu que você não poderia manter mais de 150 amizades. Na verdade, ele só descobriu um limite de limite no friendster ...
Quanto aos dados do twitter, ou realmente qualquer "grande volume de dados" coletado da web, acredito que muitas vezes as pessoas introduzem preconceitos adicionais pela maneira como coletam seus dados. Poucos terão todo o Twitter. Eles terão um certo subconjunto que eles localizaram, e esse é apenas mais um viés no conjunto de dados.
Dividir os dados em um conjunto de testes ou realizar validação cruzada provavelmente não ajuda muito. O outro conjunto terá o mesmo viés. E para big data, preciso "compactar" minhas informações com tanta intensidade que é improvável que eu me ajuste demais.
Recentemente, ouvi essa piada, com o cientista de big data que descobriu que existem aproximadamente 6 sexos no mundo ... e posso imaginar que isso aconteça ... "Masculino, feminino, orc, peludo, sim e não".
Então, quais métodos temos para obter alguma validade estatística de volta à análise, em particular ao tentar prever algo fora do conjunto de dados "big data"?