Existe uma razão estatística para a análise da item / teoria da resposta não ser mais amplamente aplicada? Por exemplo, se um professor faz um teste de múltipla escolha de 25 perguntas e descobre que 10 perguntas foram respondidas corretamente por todos, 10 perguntas foram respondidas por uma fração muito baixa (digamos 10%) e as 5 restantes foram respondidas por aproximadamente 50% das pessoas . Não faz sentido reponderar as pontuações para que questões difíceis ganhem mais peso?
E, no entanto, no mundo real, os testes quase sempre têm todas as questões igualmente ponderadas. Por quê?
O link abaixo discute os índices de discriminação e outras medidas de dificuldade para escolher quais perguntas são as melhores: http://fcit.usf.edu/assessment/selected/responsec.html
Parece, porém, que o método de descobrir o índice de discriminação de perguntas é usado apenas de forma prospectiva (por exemplo, se uma pergunta não discriminar bem, jogue-a). Por que os testes não são ponderados novamente para a população atual?