12 professores estão ensinando 600 alunos. As 12 coortes ensinadas por esses professores variam em tamanho de 40 a 90 alunos, e esperamos diferenças sistemáticas entre as coortes, já que os alunos de pós-graduação foram desproporcionalmente alocados a coortes particulares, e experiências anteriores mostraram que os alunos de pós-graduação, em média, obtêm uma pontuação consideravelmente superior a os estudantes de graduação.
Os professores classificaram todos os trabalhos de sua coorte e atribuíram a eles uma nota de 100.
Cada professor também examinou um trabalho selecionado aleatoriamente de três outros professores e atribuiu uma nota a 100. Cada professor teve três de seus trabalhos marcados por outro professor. Assim, 36 documentos diferentes foram cruzados dessa maneira, e eu os chamo de dados de calibração.
Também posso ver quantos estudantes de pós-graduação estavam em cada coorte.
Minhas perguntas são:
A) Como posso usar esses dados de calibração para ajustar as marcas originais, a fim de torná-las mais justas? Em particular, eu gostaria de lavar o máximo possível os efeitos de fabricantes excessivamente generosos / não generosos.
B) Quão apropriados são meus dados de calibração? Não tive escolha nos 36 pontos de dados de calibração que eu obtive neste curso, e não tenho mais opção de coletar mais durante o semestre atual. No entanto, se essa situação persistir, talvez eu consiga coletar mais dados de calibração ou coletar diferentes tipos de dados de calibração.
Esta pergunta é um parente de uma pergunta popular que eu fiz: Como posso lidar melhor com os efeitos de marcadores com diferentes níveis de generosidade na classificação dos trabalhos dos alunos? . No entanto, é um curso diferente e não tenho certeza de quão útil seria a leitura dessa pergunta como pano de fundo para a atual, já que o principal problema era que eu não tinha dados de calibração.
lm(score ~ gradStudent + ... + teacherID
deveria fazê-lo.