Pesquisas: 25% de uma grande base de usuários é representativa?

13

Atualmente, meu empregador está realizando uma pesquisa ampla sobre as atitudes em relação ao escritório, ou seja, sentimentos. No passado, eles abriram a pesquisa para todas as áreas da empresa (vamos assumir 10 departamentos muito diferentes) e para todos os funcionários (assumir 1000 funcionários no total em toda a empresa) A quantidade de funcionários em cada departamento não é igual e um departamento particular é provavelmente 50% da população total da organização.

Este ano, a pesquisa está sendo aberta apenas para 25% da base total de funcionários e a seleção é 'aleatória'

Portanto, tenho duas consultas:

Se for uma seleção verdadeiramente aleatória de toda a base de funcionários, como é que uma amostra estatisticamente válida assumindo que todos esses funcionários responderam?
Se for aleatório em um nível por departamento, por exemplo, 25% de cada departamento, como é que uma amostra válida considerando um departamento está acima de 50% da população total.

Eu teria assumido que, para determinar um sentimento majoritário em uma empresa, seria necessário pelo menos 50% da base de funcionários em cada departamento para fornecer um verdadeiro sentimento de leitura.

Atualização : a pesquisa não é aplicada. Não pode haver garantia de uma taxa de resposta de 100% dos 25% selecionados. Não há meios de incentivo ou punição se a pesquisa for ou não preenchida.

survey survey-sampling

— Colin
fonte

2

Eu sugeriria que a pesquisa fosse tão pequena (número / tipo de perguntas) quanto fosse necessária, e a tornasse obrigatória para o número necessário, para que os funcionários / gerentes não se queixem de que é um tempo gigantesco. Se as pessoas se auto-selecionam, isso garante viés sistemático de alguma forma.

— Nick T

Se você estiver medindo, a média de alguma variável que é normalmente distribuída, após cerca de 20 respostas, o tamanho do seu intervalo +/- aumentará a uma taxa aproximada 1/sqrt(# responses). Por exemplo, com 20 respostas, você terá +/- .468 * sigma. Com 100 respostas, será +/- .198 * sigma. Com 1000 respostas, será +/- .062 * sigma.

— Pace

22

Pense em pesquisas na população em geral, digamos nos EUA. Se precisarmos de 50% da população para determinar a opinião da maioria, precisaremos de uma amostra de cerca de 160 milhões, o que é realmente proibitivo. Mesmo uma amostra de 1% é extrema (cerca de 3,2 milhões) e raramente é realizada. Uma pesquisa importante nos EUA, a Pesquisa Social Geral, tem amostras entre 1.500 e quase 3.000. Portanto, uma amostra de 25% não é um problema.

Lembre-se de que uma pesquisa não é uma eleição ou um referendo. Para que este último seja legítimo, toda pessoa elegível deve ter a oportunidade de expressar sua opinião. Para a pesquisa, o objetivo é obter uma boa estimativa da opinião média, e você pode obtê-la com uma amostra aleatória. Portanto, a empresa precisa decidir qual é o objetivo da pesquisa: é uma maneira dos funcionários opinarem e participarem da empresa, ou é uma maneira dos gerentes obterem informações?

Ambos os projetos de amostragem garantem que 25% dos funcionários sejam solicitados. Este último garante que um departamento menor seja representado na pesquisa. Se você se preocupa com erros padrão, deve levar em consideração a natureza aninhada da amostragem, embora eu não suspeite que isso importe bastante nesse caso.

— Maarten Buis
fonte

2

+1, mas vale a pena enfatizar que, se você não estiver interessado em "opinião média", mas algo mais, amostras maiores podem ser necessárias.

— Tim

1

Obrigado pela resposta. No entanto, e foi minha omissão, não há aplicação da pesquisa. Apenas 25% serão solicitados, mas não são obrigados a responder.

— Colin

2

Isso também é normal. Se eu fizer uma pesquisa, seria difícil forçar as pessoas a responderem. Eu poderia tentar contratar alguns bandidos para "persuadir" meus entrevistados, mas isso teria algumas conseqüências éticas e legais ... Mesmo assim, a não resposta é um problema, mas é um problema que a maioria das pesquisas precisa lidar.

— Maarten Buis

7

Por etimologia, " pesquisa " ( sur-de 'super', como em 'de cima' e -veyde 'visão') significa obter uma visão geral , não a imagem completa.

Desde que os 25% sejam realmente aleatórios e não sejam auto-selecionados (opt-in), eles atendem perfeitamente à definição do termo. Se a pesquisa for opcional, as respostas serão representativas apenas daqueles que sentirem necessidade de responder. Por exemplo, imagine um restaurante em que se possa preencher um cartão de feedback após o jantar. Mesmo que a maioria dos clientes seja feliz, a maior parte do feedback será negativa, porque os clientes satisfeitos vêem poucas razões para dar feedback.

— dotancohen
fonte

1

Você poderia expandir o efeito da 'auto-seleção'? Esta pesquisa não é aplicada, é totalmente opcional e não há meios de incentivo ou punição se você a preencher ou não. Vou atualizar minha pergunta de abertura.

— Colin

6

@ Colin: Se a pesquisa for opcional, as respostas serão representativas apenas daqueles que sentirem necessidade de responder. Por exemplo, imagine um restaurante em que se possa preencher um cartão de feedback após o jantar. Mesmo que a maioria dos clientes seja feliz, a maior parte do feedback será negativa, porque os clientes satisfeitos vêem poucas razões para dar feedback.

— dotancohen

1

@dotancohen Acho que a resposta se beneficiaria muito com a inclusão desse comentário.

— Pere

@Pere: Obrigado, eu estava preocupado que colocar o comentário na resposta pudesse distrair do ponto de vista etimológico. Mas você está certo, e eu vou adicioná-lo.

— dotancohen

4

Outro ponto de vista vem da teoria do design de experimentos.

O poder estatístico é a probabilidade de encontrar um efeito se for real ( fonte )

Quatro fatores afetam o poder:

Tamanho do efeito
Desvio padrão da característica
Maior tamanho da amostra
Nível de significância desejado

Com base nesses elementos, você pode escrever uma equação matemática formal que relacione potência, tamanho da amostra, tamanho do efeito, desvio padrão e nível de significância ( fonte )

De acordo com um conjunto de suposições , você pode caracterizar sua pesquisa como uma experiência e explorar o design da estrutura da experiência ( aqui estão alguns exemplos). Há uma série de suposições educadas a serem feitas; no entanto, um modelo imperfeito pode ser melhor do que nenhum modelo.

— IcannotFixThis
fonte

3

Sinto duas perguntas. Uma sobre o tamanho da amostra (25%, por que não a maioria) e outra sobre a técnica de amostragem (é verdadeiramente aleatória, amostra 25% aleatória em toda a empresa, amostra 25% aleatória em todos os departamentos ou usa alguma outra distribuição).

1) O tamanho da amostra não precisa ser majoritário. O tamanho da amostra necessário pode estar entre 0 e 100%, dependendo da precisão necessária para uma determinada razão de confiança ou probabilidade.

100% de certeza nunca é obtida (também não com um subconjunto de 50% ou mais). Atingir uma precisão tão alta também não é o ponto de amostragem e estimativa.

Veja mais sobre tamanhos de amostra: https://en.wikipedia.org/wiki/Sample_size_determination

Se você obtiver a lei dos grandes números, também poderá ter uma ideia intuitiva.

A distribuição das médias de todos os subconjuntos possíveis (e sua amostra será um deles) ficará menor e mais próxima da média da distribuição original, se o tamanho do subconjunto aumentar. Se você selecionar uma pessoa, existe uma chance razoável de encontrar uma exceção, mas encontrar a mesma exceção na mesma direção duas vezes se torna menos provável. E assim por diante, quanto maior o tamanho do subconjunto amostrado, menor a chance de um subconjunto excepcional.

$n$

Nota importante! Sua estimativa não dependerá do tamanho da população da qual você faz a amostragem, mas da distribuição dessa população.

No caso do seu departamento de tamanho 500. O desvio das médias dos subconjuntos aleatórios (de tamanho 125) será 11 vezes menor que o desvio original. Observe que o erro na medição (o desvio da média dos subconjuntos selecionados aleatoriamente) é independente do tamanho do departamento. Pode ser 500, 5000 ou 50000; em todos os casos, a estimativa não será afetada desde que tenham a mesma distribuição (agora um minúsculo departamento pode ter uma distribuição estranha, mas isso começa a desaparecer para grupos maiores).

2) A amostragem não precisa ser totalmente aleatória. Você pode levar em consideração os dados demográficos.

Eventualmente, você trataria cada departamento separadamente nesse tipo de análise e corrigeria as variações entre os departamentos e como você amostrou nesses departamentos, de tamanhos diferentes.

Nesta correção, existem duas diferenciações importantes. Pode-se assumir a distribuição entre os grupos como uma variável aleatória ou não. Se você a tratar como uma variável aleatória, a análise se tornará mais forte (eliminando alguns graus de liberdade no modelo), mas pode ser uma suposição errada se os diferentes grupos não puderem ser trocados como entidades aleatórias sem efeito específico (o que parece ser seu caso, como imagino que os departamentos tenham funções diferentes e possam ter sentimentos muito diferentes que não sejam aleatórios em relação ao departamento).

— Sextus Empiricus
fonte

1

Obrigado pela resposta. No entanto, e foi minha omissão, não há aplicação da pesquisa. Apenas 25% serão solicitados, mas não são obrigados a responder.

— Colin

1

Depois, há uma terceira pergunta adicional sobre as técnicas de amostragem e como os dados são coletados. Para esses problemas, como lidar com aspectos sem resposta e outros aspectos de qualidade dos dados, não há uma resposta única. De qualquer forma (perguntando 50% ou 25%) se houver um grande problema com a resposta, qualquer discussão sobre a análise estatística é apenas de importância secundária. Você não vai melhorar muito este estudo com mais amostragens (por exemplo, solicitando> 50%) e é melhor focar em uma boa amostragem.

— Sextus Empiricus

2

Sua pergunta é sobre o tamanho da amostra para uma população finita. Mas a primeira coisa que você precisa é o tamanho da amostra necessário em uma população infinita, que pode ser usada para calcular o tamanho da amostra para uma população finita.

Em uma pesquisa com uma população infinita, a fórmula é: $n=(z^2pq)/d^2$
$n$ tamanho da amostra
$z^2$ , nível de confiança, geralmente 1,96
$p$ , proporção da população com uma característica, se desconhecida, use 0,5
$q=1-p$ , proporção da população sem característica
$d^2$ , nível de erro (também conhecido como margem de erro), geralmente 3%, mas 1% ou 5% podem ser usados.

O nível de erro se torna o fator mais importante, porque quanto menor o nível de erro, maior o tamanho da amostra necessário e vice-versa. Portanto, o tamanho da amostra para uma população infinita com erro de 3% é: $(1.96 \times 0.5 \times 0.5)/0.03^2=1,068$ . Além disso, o nível de erro significa que os resultados têm um erro de +/- 3%, neste caso. Isso significa que se 48% das pessoas na pesquisa eram do sexo masculino, o intervalo possível é de 48% +/- 3%, ou 45% a 51%.

O próximo passo é a fórmula para o tamanho da amostra para uma população finita: $m=n / (1+((n-1)/N))$
$m$ , tamanho da amostra para população finita
$n$ , tamanho da amostra para população infinita (1.068 acima)
$N$ tamanho finito da população

Usando o exemplo de $N=1,000$ , o tamanho da amostra necessário com erro de 3% seria $1068 / (1+((1068-1)/1000))=517$ , ou 51,7% da população.

Se você usou 25% da população, o nível de erro sai como 5,4%. Esse nível de erro pode ser bom com base em pesquisas anteriores. Nas pesquisas, sempre há uma troca entre o nível de erro que você deseja aceitar e os custos de realização da pesquisa.

Nenhum desses fatores na taxa de resposta (se estiver usando uma amostra aleatória simples). Para descobrir quantas pessoas precisam ser contatadas, divida o tamanho da amostra pela taxa de resposta esperada. Por exemplo, se a taxa de resposta anterior fosse de 65%, você precisaria enviar o instrumento de pesquisa para $517/0.65=796$ pessoas.

As coisas ficam mais complexas se você deseja dividir a população por departamento (conhecida como estratificação). Basicamente, você precisa tratar cada departamento como uma população finita separada se quiser que os dados sejam precisos para cada departamento, o que pode não ser prático. Mas você pode fazer uma amostra aleatória estratificada em vez de uma amostra aleatória simples, onde 50% da amostra é selecionada aleatoriamente no departamento com 50% da população e porcentagens adequadas são amostradas aleatoriamente em outros departamentos. Isso significa que o tamanho da sua amostra aumentará um pouco porque você precisa arredondar todas as casas decimais (não é possível pesquisar 0,1 de uma pessoa). No entanto, os resultados devem ser examinados no nível da população (empresa) e não no nível do departamento, porque não haverá respostas suficientes de cada departamento para ser preciso.

— mjc
fonte

1

Ao falar sobre uma amostra válida, a noção subjacente geralmente é de representação. A amostra "representa" a população adequadamente? Para obter uma amostra representativa, é necessário garantir que o tamanho da amostra seja adequado (para reduzir a variação da estimativa) e que a amostra contenha membros pertencentes aos subconjuntos da população que exibam diferentes tipos de comportamento. sob consideração.

Primeiro, a proporção de usuários selecionados para a pesquisa é menor em comparação ao número absoluto de usuários selecionados. O tamanho da amostra necessário dependerá da exigência de precisão ou intervalo de confiança na resposta fornecida. Você pode ler este artigo para obter mais informações.

Você menciona que a empresa consiste em vários departamentos. É provável que os departamentos variem em suas respostas à pesquisa? Se sim (ou talvez você não tenha certeza), seria uma boa ideia "estratificar" sua amostra entre os departamentos. Na sua forma mais simples, isso significa escolher uma proporção igual de pessoas de todos os departamentos. Por exemplo: o tamanho da empresa é 1000 e o tamanho da amostra escolhido é 100. Então você escolheria 50 em um departamento de tamanho 500, 10 em um departamento de tamanho 100, etc. Isso evita a sub-representação de um departamento em particular. qualquer amostra "aleatória" específica.

Você também mencionou que nem todos podem responder à pesquisa. Se você souber que aproximadamente metade das pessoas responderá, para obter 100 respostas, será necessário enviar a pesquisa para 200 pessoas. Você terá que considerar a possibilidade de que essas respostas sejam tendenciosas. Pessoas com uma resposta específica podem estar mais ou menos inclinadas a responder.

— raghu
fonte

1

Se for uma seleção verdadeiramente aleatória de toda a base de funcionários , como é que uma amostra estatisticamente válida assumindo que todos esses funcionários responderam?

É uma amostra válida, desde que retirada da população que se destina a descrever. Ou seja, se você provar apenas chefes, nada poderá ser dito sobre os outros funcionários; isso não acontecerá na configuração que você descreveu. No entanto, isso pode ocorrer devido à não resposta (mais sobre isso aqui abaixo).

Se for aleatório em um nível por departamento, por exemplo, 25% de cada departamento, como é que uma amostra válida considerando um departamento está acima de 50% da população total.

Não se trata mais de validade da amostra, mas de erro de amostragem. Obviamente, as estimativas mais precisas seriam obtidas a partir de um sorteio aleatório estratificado, abrangendo pelo menos o nível do departamento. Nesse cenário, você terá uma amostra válida para cada departamento, mas as estimativas para departamentos pequenos serão geralmente menos precisas do que as estimativas para grandes departamentos, graças ao maior tamanho absoluto da amostra para este último. Para a organização geral, a representação mais alta da amostra de departamentos maiores simplesmente reflete a realidade da organização e de forma alguma reduz a validade da amostra.

A pesquisa não é aplicada. Não pode haver garantia de uma taxa de resposta de 100% dos 25% selecionados. Não há meios de incentivo ou punição se a pesquisa for ou não preenchida.

Você não poderá forçar ninguém a fornecer uma boa resposta, mas implementar um plano de lembrete de resposta é mínimo. Além disso, você deve explicar a relevância da pesquisa para os funcionários e o impacto que eles podem ter na organização graças à pesquisa: por exemplo quando os resultados são publicados? Quais são as possíveis ações empreendidas pela organização com base na pesquisa? por que cada resposta importa?

Depois que os dados são coletados, a não resposta é um problema que deve ser tratado. Lidar com isso significa que você deve primeiro analisar o comportamento de não resposta para detectar possíveis padrões: nenhum chefe respondeu? Um determinado departamento ainda não respondeu? Em seguida, adote a estratégia necessária (pós-estrafificação, reponderação, imputação etc.).

— g3o2
fonte

1

Estou expandindo a resposta do @ICannotFixThis com um exemplo de como os quatro fatores envolvidos são importantes:

Tamanho do efeito
Desvio padrão da característica
Maior tamanho da amostra
Nível de significância desejado

Como esses fatores afetam seus resultados dependerá da estatística que você está usando. Por exemplo, se você quiser adivinhar a média de alguma variável, poderá usar o Teste T de Student .

Vamos supor que você queira descobrir a altura média de seus funcionários com esta pesquisa. Na verdade, você não conhece o desvio padrão da altura de todos os funcionários da sua empresa (sem medir todos), mas você poderia fazer algumas pesquisas e adivinhar 3 polegadas (é aproximadamente o desvio padrão da altura para homens nos EUA).

Se você pesquisou apenas 5 pessoas, 95% das vezes a altura média observada em sua pesquisa fica a 3,72 polegadas da verdadeira altura média.

Agora, como nossos fatores afetam isso:

Se você precisar conhecer a altura média com muita precisão (por exemplo, o tamanho do efeito é muito pequeno), precisará de um grande número de amostras. Por exemplo, para conhecer a verdadeira altura média dentro de 2,66 polegadas, seria necessário pesquisar 100 pessoas.
Se o desvio padrão for grande, a precisão que você pode obter será limitada. Se o desvio padrão fosse 6 polegadas em vez de 3 polegadas e você ainda tivesse 5 respostas, saberia apenas dentro de 7,44 polegadas em vez de 3,72 polegadas a verdadeira altura média.
Ignorando esse ponto, pois é o foco de toda a discussão.
Se você realmente precisa ter a resposta correta, precisará pesquisar mais pessoas. Em nosso exemplo, vimos que, com 5 respostas, poderíamos chegar a 3,72 polegadas 95% do tempo. Se quisermos ter certeza de que nossa resposta está no intervalo correto 99% das vezes, nosso alcance será de 6,17 polegadas e não de 3,72 polegadas.

— Ritmo
fonte