Sobre o uso de correlações ponderadas nos dados agregados da pesquisa

Estou analisando dados de duas pesquisas que foram mescladas:

Inquérito aos funcionários das escolas, nos anos 2005-06 e 2007-08
Inquérito aos alunos das escolas, para o período de 2005-06 a 2008-09

Para ambos os conjuntos de dados, tenho observações (no nível de alunos ou funcionários) de três distritos escolares diferentes, cada um com amostras representativas por ano em seu distrito escolar distinto.

Para análise, combinei os dados do aluno em dois períodos de dois anos (2005-07 e 2007-09). Depois, apliquei cada conjunto de dados para obter porcentagens de funcionários ou alunos que responderam a perguntas de acordo com os pontos de corte (por exemplo, se eles responderam afirmativamente "Concordo" ou se o aluno marcou que usava álcool, etc.) Portanto, quando mesclamos os conjuntos de dados de funcionários e alunos, a escola é a unidade de análise e só tenho 1 observação por escola por períodos de dois anos (dado que a escola não estava perdendo dados por um determinado período) )

Meu objetivo é estimar as associações entre funcionários e respostas dos alunos. Até agora, meu plano era obter coeficientes de correlação de Pearson entre todas as variáveis (como todas respostas contínuas representando porcentagens) para cada distrito escolar separadamente umas das outras (pois isso elimina a suposição de generalização para os outros distritos neste conjunto de dados) . Para fazer isso, eu calcularia a média dos dados do distrito ao longo dos dois anos para obter apenas uma observação por escola.

Questões:

Esse é um plano de análise apropriado? Existe algum outro método que eu possa usar que possa me fornecer melhor inferência ou poder?
Se meu plano for apropriado, devo obter correlações ponderadas com base na matrícula da escola (pois há mais escolas menores que grandes que contribuiriam desproporcionalmente para os coeficientes de correlação)?

Perguntei ao administrador de dados sobre isso e ele mencionou que os principais fatores que determinam a necessidade de ponderar meus dados são se eu acho que o tamanho da escola afeta ou não o grau de correlação e se minha interpretação será no nível do aluno ou da escola. Acho que minha interpretação será no nível da escola (por exemplo, "uma escola com essa porcentagem de funcionários respondendo dessa maneira está correlacionada com essa porcentagem de alunos que respondem dessa maneira ...").

correlation survey multilevel-analysis

— Iris Tsui
fonte

Eu imagino que isso é história agora, mas por via das dúvidas ...

1) Sim, isso parece apropriado. Sua pergunta de pesquisa deve ser "as atitudes / comportamentos dos professores de uma escola estão relacionadas às atitudes / comportamentos dos alunos daquela escola?" Se essa for sua pergunta, uma escola é a unidade de análise apropriada (e de qualquer maneira não haveria como associar professores individuais a alunos).

Eu apenas acrescentaria advertências sobre o uso do coeficiente de correlação de Pearson, não relacionado à questão da unidade de análise ou estratégia de amostragem. O coeficiente de correlação não pode captar relações não lineares, pode ser enganoso de interpretar, é facilmente distorcido por alguns discrepantes, e a inferência clássica baseada nele depende da Normalidade (que não se mantém exatamente com seus dados de proporção, embora possa ser uma aproximação razoável). No mínimo, usaria cuidadosamente métodos gráficos para verificar se essa é uma abordagem sensata e se não há uma maneira melhor de inferir a relação entre as duas variáveis.

2) Não acho que você precise ponderar os dados, mas certamente tentaria (e espero que isso não mude os resultados). Mas eu ponderaria pelo tamanho da sua amostra na escola, não pelo tamanho da matrícula. O motivo seria a estimativa, e não a sua unidade de análise ou qualquer necessidade de "ponderar a população". Você tem apenas uma estimativa das respostas reais dos professores e alunos em cada escola, baseando-se em sua amostra finita. Nas escolas em que você teve uma amostra maior, você tem mais confiança em sua estimativa e, portanto, seria bom se elas fossem levadas mais a sério no ajuste de sua correlação ou regressão linear.

— Peter Ellis
fonte

Agradecemos sua resposta confirmatória e seus conselhos. Acabei não usando esse tipo de análise por várias razões (tempo e recursos, incluídos) e, em vez disso, apresentei as coisas apenas de forma descritiva. Fiquei desconfortável ao tentar tirar conclusões relacionadas à correlação sobre tendências usando apenas dois pontos no tempo, então segui pelo caminho seguro. Infelizmente, isso significa que os dados não têm muito a dizer em relação ao meu objetivo de pesquisa. Ah bem.

— Iris Tsui