Qual é a diferença entre uma população e uma amostra? Quais variáveis e estatísticas comuns são usadas para cada uma e como elas se relacionam?
Qual é a diferença entre uma população e uma amostra? Quais variáveis e estatísticas comuns são usadas para cada uma e como elas se relacionam?
Respostas:
A população é o conjunto de entidades em estudo. Por exemplo, a altura média dos homens. Esta é uma população hipotética porque inclui todos os homens que viveram, estão vivos e viverão no futuro. Gosto desse exemplo, porque nos leva a um ponto em que nós, como analistas, escolhemos a população que queremos estudar. Normalmente, é impossível pesquisar / medir toda a população, porque nem todos os membros são observáveis (por exemplo, homens que existirão no futuro). Se é possível enumerar toda a população, geralmente é caro fazê-lo e levaria muito tempo. No exemplo acima, temos uma população "homens" e um parâmetro de interesse, sua altura.
Em vez disso, poderíamos pegar um subconjunto dessa população chamado amostra e usá-la para extrair inferências sobre a população em estudo, dadas algumas condições. Assim, poderíamos medir a altura média dos homens em uma amostra da população que chamamos de estatística e usá-la para extrair inferências sobre o parâmetro de interesse na população. É uma inferência, porque haverá alguma incerteza e imprecisão envolvidas na obtenção de conclusões sobre a população com base em uma amostra. Isso deve ser óbvio - temos menos membros em nossa amostra do que nossa população, portanto, perdemos algumas informações.
Existem muitas maneiras de selecionar uma amostra e o estudo disso é chamado de teoria da amostragem. Um método comumente usado é chamado Simple Random Sampling (SRS). No SRS, cada membro da população tem uma probabilidade igual de ser incluído na amostra, daí o termo "aleatório". Existem muitos outros métodos de amostragem, por exemplo, amostragem estratificada, amostragem por agrupamento, etc., todos com suas vantagens e desvantagens.
É importante lembrar que a amostra que retiramos da população é apenas uma de um grande número de amostras em potencial. Se dez pesquisadores estudassem a mesma população, coletando suas próprias amostras, eles poderiam obter respostas diferentes. Voltando ao nosso exemplo anterior, cada um dos dez pesquisadores pode ter uma altura média diferente dos homens, ou seja, a estatística em questão (altura média) varia de amostra para amostra - ela tem uma distribuição chamada distribuição de amostragem. Podemos usar essa distribuição para entender a incerteza em nossa estimativa do parâmetro populacional.
Sabe-se que a distribuição amostral da média da amostra é uma distribuição normal com um desvio padrão igual ao desvio padrão da amostra dividido pelo tamanho da amostra. Como isso pode ser facilmente confundido com o desvio padrão da amostra, é mais comum chamar o desvio padrão da distribuição da amostra como erro padrão .
A população é o conjunto inteiro de valores, ou indivíduos, nos quais você está interessado. A amostra é um subconjunto da população e é o conjunto de valores que você realmente usa em sua estimativa.
Então, por exemplo, se você deseja conhecer a altura média dos residentes na China, essa é a sua população, ou seja, a população da China. O problema é que esse número é bastante grande e você não seria capaz de obter dados para todos os participantes. Então você desenha uma amostra, ou seja, recebe algumas observações ou a altura de algumas pessoas na China (um subconjunto da população, a amostra) e faz sua inferência com base nisso.
A população é tudo no grupo de estudo. Por exemplo, se você está estudando o preço das ações da Apple, são os preços históricos, atuais e até todos os futuros de ações. Ou, se você administra uma fábrica de ovos, são todos os ovos fabricados pela fábrica.
Você nem sempre precisa amostrar e fazer testes estatísticos. Se sua população é sua família de vida imediata, você não precisa provar, pois a população é pequena.
A amostragem é popular por vários motivos:
Quando pensamos no termo "população", geralmente pensamos nas pessoas em nossa cidade, região, estado ou país e em suas respectivas características, como sexo, idade, estado civil, filiação étnica, religião e assim por diante. Nas estatísticas, o termo "população" assume um significado ligeiramente diferente. A "população" nas estatísticas inclui todos os membros de um grupo definido em que estamos estudando ou coletando informações para decisões orientadas por dados.
Uma parte da população é chamada de amostra. É uma proporção da população, uma fatia dela, uma parte dela e todas as suas características. Uma amostra é um grupo cientificamente elaborado que realmente possui as mesmas características da população - se for coletado aleatoriamente (pode ser difícil para você acreditar, mas é verdade!)
As amostras coletadas aleatoriamente devem ter duas características:
* Cada pessoa tem a mesma oportunidade de ser selecionada para sua amostra; e,
* A seleção de uma pessoa é independente da seleção de outra pessoa.
O que é ótimo em amostras aleatórias é que você pode generalizar para a população em que está interessado. Portanto, se você provar 500 famílias em sua comunidade, poderá generalizar para as 50.000 famílias que vivem lá. Se você combinar algumas das características demográficas dos 500 com os 50.000, verá que elas são surpreendentemente semelhantes.
Uma população inclui todos os elementos de um conjunto de dados. Uma amostra consiste em uma ou mais observações da população. BOA, A. (2012, 17)