Como criar um conjunto de amostras representativo de um grande conjunto de dados geral?


10

Quais são as técnicas estatísticas para criar um conjunto de amostras representativo de toda a população (com um nível de confiança conhecido)?

Além disso,

  • Como validar, se a amostra se encaixa no conjunto de dados geral?
  • É possível, sem analisar todo o conjunto de dados (que pode ser bilhões de registros)?

Respostas:


8

Se você não deseja analisar todo o conjunto de dados, provavelmente não pode usar amostragem estratificada , então sugiro coletar uma amostra aleatória grande e simples . Ao coletar uma amostra aleatória , você garante que a amostra será, em média, representativa de todo o conjunto de dados, e as medidas estatísticas padrão de precisão, como erros padrão e intervalos de confiança, informarão a que distância os valores da população são prováveis ​​em suas estimativas de amostra. portanto, não há necessidade real de validar que uma amostra é representativa da população, a menos que você tenha algumas preocupações que foram realmente amostradas aleatoriamente.

Qual o tamanho de uma amostra aleatória simples? Bem, quanto maior a amostra, mais precisas serão suas estimativas. Como você já possui os dados, os cálculos convencionais de tamanho de amostra não são realmente aplicáveis ​​- você pode usar o máximo de seu conjunto de dados quanto possível para a computação. A menos que você esteja planejando fazer algumas análises complexas que tornarão o tempo de computação um problema, uma abordagem simples seria tornar a amostra aleatória simples tão grande quanto puder ser analisada no seu PC sem levar à paginaçãoou outros problemas de memória. Uma regra prática para limitar o tamanho do conjunto de dados a não mais da metade da RAM do computador, para ter espaço para manipulá-lo e deixar espaço para o sistema operacional e talvez alguns outros aplicativos menores (como um editor e um navegador da web) ) Outra limitação é que os sistemas operacionais Windows de 32 bits não permitem que o espaço de endereço de um único aplicativo seja maior que bytes = 2,1 GB, portanto, se você estiver usando o Windows de 32 bits, 1 GB poderá ser um limite razoável no tamanho de um conjunto de dados.231

É então uma questão de uma aritmética simples calcular quantas observações você pode amostrar, considerando quantas variáveis ​​você possui para cada observação e quantos bytes cada variável ocupa.


Obrigado pela sua resposta. Acho que estou procurando amostragem estratificada. (Eu estava procurando por algoritmos, que não são computacionalmente muito caro, como não analisar toda a população, para fazer um conjunto representativo, não faz muito sentido :-).)
Mohit Ranka

2

Em sua segunda pergunta, você pode perguntar: "como os dados foram inseridos?" Se você acha que os dados foram inseridos de maneira relativamente arbitrária (ou seja, independente de quaisquer características observáveis ​​ou não observáveis ​​de suas observações que possam influenciar sua análise final usando os dados), considere os 5 milhões, digamos, ou no entanto com quem você se sente à vontade para trabalhar, como representante da amostra completa e seleciona aleatoriamente desse grupo para criar uma amostra com a qual possa trabalhar.

Para comparar duas distribuições empíricas, é possível usar qq-plot e o teste não paramétrico de Kolmogorov – Smirnov de duas amostras para diferenças nas distribuições (consulte, por exemplo, aqui: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). Nesse caso, você testaria a distribuição de cada variável em sua amostra contra a distribuição dessa variável em seu conjunto de dados "completo" (novamente, podem ser apenas 5 milhões de observações de sua amostra completa). O teste KS pode sofrer com baixa potência (ou seja, é difícil rejeitar a hipótese nula de não haver diferença entre os grupos), mas, com tantas observações, você deve ficar bem.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.