Se você não deseja analisar todo o conjunto de dados, provavelmente não pode usar amostragem estratificada , então sugiro coletar uma amostra aleatória grande e simples . Ao coletar uma amostra aleatória , você garante que a amostra será, em média, representativa de todo o conjunto de dados, e as medidas estatísticas padrão de precisão, como erros padrão e intervalos de confiança, informarão a que distância os valores da população são prováveis em suas estimativas de amostra. portanto, não há necessidade real de validar que uma amostra é representativa da população, a menos que você tenha algumas preocupações que foram realmente amostradas aleatoriamente.
Qual o tamanho de uma amostra aleatória simples? Bem, quanto maior a amostra, mais precisas serão suas estimativas. Como você já possui os dados, os cálculos convencionais de tamanho de amostra não são realmente aplicáveis - você pode usar o máximo de seu conjunto de dados quanto possível para a computação. A menos que você esteja planejando fazer algumas análises complexas que tornarão o tempo de computação um problema, uma abordagem simples seria tornar a amostra aleatória simples tão grande quanto puder ser analisada no seu PC sem levar à paginaçãoou outros problemas de memória. Uma regra prática para limitar o tamanho do conjunto de dados a não mais da metade da RAM do computador, para ter espaço para manipulá-lo e deixar espaço para o sistema operacional e talvez alguns outros aplicativos menores (como um editor e um navegador da web) ) Outra limitação é que os sistemas operacionais Windows de 32 bits não permitem que o espaço de endereço de um único aplicativo seja maior que bytes = 2,1 GB, portanto, se você estiver usando o Windows de 32 bits, 1 GB poderá ser um limite razoável no tamanho de um conjunto de dados.231
É então uma questão de uma aritmética simples calcular quantas observações você pode amostrar, considerando quantas variáveis você possui para cada observação e quantos bytes cada variável ocupa.