Modelo de amostragem para dados de crowdsourcing?

Estou trabalhando em um aplicativo de pesquisa de saúde aberto, planejado para ser usado em países em desenvolvimento.

A idéia básica é que as entrevistas da pesquisa sejam de crowdsourcing - elas são realizadas por voluntários desorganizados que enviam dados dos formulários das entrevistas realizadas usando seus dispositivos móveis, e cada pesquisa é acompanhada pelos dados de GPS do local da entrevista.

Pesquisas tradicionais compiladas por agências governamentais geralmente são implementadas usando algum modelo de amostragem padrão - geralmente um modelo de amostragem probabilística. Isso requer muito planejamento centralizado que nem sempre pode ser executado. (mencionei isso para colocar minha pergunta no contexto certo)

Podemos dizer que um voluntário implementará uma amostra de conveniência em sua área. Ele entrevistará arbitrariamente o número de pessoas que pode alcançar.

O problema básico é: como entender e caracterizar o modelo geral de amostragem desse sistema de levantamento? Existem metodologias ou modelos compostos para lidar com esses casos?

sampling

— al-Amjad Tawfiq Isstaif
fonte

Resposta curta: Esta é uma amostra de conveniência. Não há nada que você possa fazer para justificá-lo.

Uma resposta um pouco mais longa: você está no mesmo barco que muitas redes sociais que executam suas pesquisas internas sem ter muita idéia de quem responderia a uma pesquisa de uma pergunta que apareceria aleatoriamente no Facebook ou no Google + ... exceto que, diferentemente desses gigantes, você não Não existem dados sobre aqueles que não responderam. A pesquisa e a comunidade de pesquisa de opinião pública geralmente desaprovam esse tipo de trabalho, pois não está claro como os resultados dessa amostra altamente tendenciosa podem ser generalizados para a população total (se é que existe). Você pode tentar reponderar de acordo com a demografia conhecida, mas acabará com uma variação de pesos de 1 para uma pessoa que só se representa a 1.000.000 atribuídos ao único homem com mais de 70 anos na população que sabe usar um computador (e provavelmente não é representativo dos restantes 1.000.000 e mais de 70 homens).

Leitura adicional: "Como mentir com as estatísticas" abre com um capítulo sobre amostras tendenciosas. Se você pode lê-lo e não chorar de frustração com o desenho da amostra, pode seguir em frente. Se você contar com voluntários, sua amostra será direcionada para populações jovens e urbanas com melhor acesso a aparelhos eletrônicos. Da mesma forma, o livreto "O que é uma pesquisa", elaborado por Fritz Scheuren, ex-presidente da Associação Estatística Americana, se abre com a imagem de Harry Truman, cuja vitória não poderia ter sido prevista pelas técnicas de pesquisa tendenciosas existentes na época.

Há algumas pesquisas sobre populações difíceis de alcançar . Um projeto bem conhecido foi um estudo sobre o número de mortes em excesso no Iraque, onde foram amostradas áreas geográficas e, em cada área, o médico local tentaria solicitar entrevistas de todas as famílias do quarteirão da cidade. Houve críticas crescentes a esse design, mas, por mais comprometedor que fosse, ele ainda tinha seu componente de amostragem. Veja artigos em Lancet (como você provavelmente sabe, você não pode ter mais prestígio no mundo da medicina) http://dx.doi.org/10.1016/S0140-6736(04)17441-2 e http: //dx.doi .org / 10.1016 / S0140-6736 (06) 69491-9 .

— StasK
fonte

(+1) Stas, há algo fundamentalmente diferente aqui na amostragem de cotas ? Apenas curioso, uma leitura superficial da pergunta faz com que pareça apenas uma mudança na terminologia. Além disso, brevemente, quais são as principais críticas do estudo de amostragem por cluster do Iraque? Lembro-me de ver isso quando saiu e ler um pouco sobre ele.

— cardinal

Suponho que uma diferença é que não há nenhuma quota por indivíduo ...;)

— cardeal

Muito obrigado! Agora, eu tenho um bom entendimento antes de reformular a idéia!

— al-Amjad Tawfiq Isstaif

en.wikipedia.org/wiki/Lancet_surveys_of_Iraq_War_casualties

— StasK:

Eu acho que houve problemas com o pequeno número de clusters, e um cluster acabou sendo um ponto fora do alcance, onde a atividade militar era muito maior do que em qualquer outro lugar do país. Para mim, a primeira coisa a considerar seriam as declarações da AAPOR e da ASA sobre o estudo. Embora Lancet possa ser um ótimo periódico médico, e John Hopkins, um ótimo médico, farejando as autoridades da AAPOR e negando a eles que os documentos de metodologia eram pouco profissionais.

— StasK 17/04