Saber como niveladoras diferem é bom, mas ainda não lhe diz o que para compensar os graus de . Para simplificar, imagine apenas duas motoniveladoras. Mesmo se concluirmos que a série 1 é consistentemente 5 notas mais generosa que a série 2, isso não diz o que você deve fazer com dois alunos que foram classificados como 70, um pela série 1 e outro pela série 2. Dizemos que a série 2 foi um marcador severo e elevou esses 70 para 75, mantendo inalterados os 70 marcados pelo aluno da primeira série? Ou presumimos que o aluno da primeira série tenha sido indevidamente indulgente, reduza seu aluno para 65 pontos e mantenha inalterado o 70º da segunda série? Comprometemo-nos a meio caminho - estendendo-se ao seu caso, com base em uma média das 11 séries? São as notas absolutas que importam; portanto, conhecer a generosidade relativa não é suficiente.
Sua conclusão pode depender de quão "objetivo" você sente que a marca absoluta final deve ser. Um modelo mental seria propor a cada aluno uma nota "correta" - aquela que seria atribuída pelo Avaliador Líder se eles tivessem tempo para marcar cada trabalho individualmente - ao qual as notas observadas são aproximações. Nesse modelo, as notas observadas precisam ser compensadas pela nota, a fim de aproximá-las o máximo possível da nota "verdadeira" não observada. Outro modelo pode ser o de que toda a classificação é subjetiva e procuramos transformar cada nota observada em direção à nota que previmos que seria atribuída se todos os avaliadores tivessem considerado o mesmo artigo e atingido algum tipo de compromisso ou nota média para ele. Acho o segundo modelo menos convincente como solução, mesmo que a admissão de subjetividade seja mais realista. Em um ambiente educacional, geralmente existe alguém que assume a responsabilidade final pela avaliação, para garantir que os alunos recebam "a nota que merecem", mas esse papel de liderança basicamente absolveu a responsabilidade dos alunos que já sabemos que discordam bastante. A partir daqui, eu assumo láé uma nota "correta" que pretendemos estimar, mas essa é uma proposta contestável e pode não se adequar às suas circunstâncias.
Suponha que os alunos A, B, C e D, todos da mesma coorte, "devam" ser classificados como 75, 80, 85 e 90, respectivamente, mas seu aluno generoso sempre marca 5 notas muito altas. Observamos 80, 85, 90 e 95 e devemos subtrair 5, mas encontrar o número a ser subtraído é problemático. Isso não pode ser feito comparando os resultados entre as coortes, pois esperamos que as coortes variem na capacidade média. Uma possibilidade é usar os resultados do teste de múltipla escolha para prever as pontuações corretas na segunda tarefa; depois, use-o para avaliar a variação entre cada aluno e as notas corretas. Mas fazer essa previsão não é trivial - se você espera média e desvio padrão diferentes entre as duas avaliações, não pode simplesmente assumir que as segundas notas de avaliação devem corresponder à primeira.
Além disso, os alunos diferem quanto à aptidão relativa nas avaliações de múltipla escolha e por escrito. Você pode tratar isso como algum tipo de efeito aleatório, formando um componente das notas "observadas" e "verdadeiras" do aluno, mas não capturadas pela nota "prevista". Se as coortes diferem sistematicamente e os alunos de uma coorte tendem a ser semelhantes, não devemos esperar que esse efeito seja medido em zero em cada coorte. Se as notas observadas de uma coorte são em média +5 em relação às previstas, é impossíveldeterminar se isso se deve a uma série generosa, a uma coorte particularmente mais adequada à avaliação escrita do que à múltipla escolha ou a alguma combinação das duas. Em um caso extremo, a coorte pode até ter uma aptidão menor na segunda avaliação, mas teve isso mais do que compensado por um aluno muito generoso - ou vice-versa. Você não pode separar isso. Está confuso.
Também duvido da adequação de um modelo aditivo tão simples para seus dados. As graduadoras podem diferir do Avaliador Líder, não apenas pela mudança de local, mas também pela disseminação - embora, como as coortes provavelmente variem em homogeneidade, você não pode apenas verificar a distribuição das notas observadas em cada coorte para detectar isso. Além disso, a maior parte da distribuição tem pontuações altas, razoavelmente próximas do máximo teórico de 100. Eu anteciparia isso introduzindo a não linearidade devido à compressão próxima do máximo - uma motoniveladora muito generosa pode dar notas A, B, C e D como 85, 90, 94, 97. É mais difícil reverter do que apenas subtrair uma constante. Pior, você pode ver "recorte" - um classificador extremamente generoso pode classificá-los como 90, 95, 100, 100. Isso é o impossívelreverter, e informações sobre o desempenho relativo de C e D são irrecuperavelmente perdidas.
Seus alunos se comportam de maneira muito diferente. Você tem certeza de que eles diferem apenas em sua generosidade geral, em vez de em vários componentes da avaliação? Isso pode valer a pena checar, pois pode introduzir várias complicações - por exemplo, a nota observada para B pode ser pior que a de A, apesar de B ser 5 pontos "melhor", mesmo que as notas atribuídas ao aluno para cada componente sejam uma função monotonicamente crescente dos Avaliadores Líderes! Suponha que a avaliação seja dividida entre Q1 (A deve pontuar 30/50, B 45/50) e Q2 (A deve pontuar 45/50, B 35/50). Imagine que a motoniveladora é muito branda no Q1 (notas observadas: A 40/50, B 50/50), mas dura no Q2 (observada: A 42/50, 30/50), então observamos totais de 82 para A e 80 para B. Se você precisar considerar as pontuações dos componentes,
Indiscutivelmente, este é um comentário estendido e não uma resposta, no sentido de que não propõe uma solução específica dentro dos limites originais do seu problema. Mas se as suas niveladoras já estão manuseando cerca de 55 papéis cada uma, então é tão ruim que elas tenham que olhar cinco ou dez mais para fins de calibração? Você já tem uma boa idéia das habilidades dos alunos e, por isso, pode escolher uma amostra de trabalhos da mesma série. Você pode avaliar se precisa compensar a generosidade da motoniveladora em todo o teste ou em cada componente e se deve fazê-lo apenas adicionando / subtraindo uma constante ou algo mais sofisticado como a interpolação (por exemplo, se você está preocupado com linearidade próxima a 100). Mas uma palavra de aviso sobre interpolação: suponha que o Avaliador Líder marque cinco documentos de amostra como 70, 75, 80, 85 e 90, enquanto um aluno as classifica como 80, 88, 84, 93 e 96, há divergências quanto à ordem. Você provavelmente deseja mapear as notas observadas de 96 a 100 no intervalo de 90 a 100 e as notas observadas de 93 a 96 no intervalo de 85 a 90. Mas um pouco de reflexão é necessário para as marcas abaixo disso. Talvez as notas observadas de 84 a 93 devam ser mapeadas para o intervalo de 75 a 85? Uma alternativa seria uma regressão (possivelmente polinomial) para obter uma fórmula para "nota verdadeira prevista" a partir de "nota observada". Talvez as notas observadas de 84 a 93 devam ser mapeadas para o intervalo de 75 a 85? Uma alternativa seria uma regressão (possivelmente polinomial) para obter uma fórmula para "nota verdadeira prevista" a partir de "nota observada". Talvez as notas observadas de 84 a 93 devam ser mapeadas para o intervalo de 75 a 85? Uma alternativa seria uma regressão (possivelmente polinomial) para obter uma fórmula para "nota verdadeira prevista" a partir de "nota observada".