Por que todos os testes não são pontuados por meio da análise de itens / teoria da resposta?

8

Existe uma razão estatística para a análise da item / teoria da resposta não ser mais amplamente aplicada? Por exemplo, se um professor faz um teste de múltipla escolha de 25 perguntas e descobre que 10 perguntas foram respondidas corretamente por todos, 10 perguntas foram respondidas por uma fração muito baixa (digamos 10%) e as 5 restantes foram respondidas por aproximadamente 50% das pessoas . Não faz sentido reponderar as pontuações para que questões difíceis ganhem mais peso?

E, no entanto, no mundo real, os testes quase sempre têm todas as questões igualmente ponderadas. Por quê?

O link abaixo discute os índices de discriminação e outras medidas de dificuldade para escolher quais perguntas são as melhores: http://fcit.usf.edu/assessment/selected/responsec.html

Parece, porém, que o método de descobrir o índice de discriminação de perguntas é usado apenas de forma prospectiva (por exemplo, se uma pergunta não discriminar bem, jogue-a). Por que os testes não são ponderados novamente para a população atual?

teaching psychometrics latent-variable

— d_a_c321
fonte

7

(Você perguntou se existe uma razão estatística: duvido, mas estou pensando em outras razões.) Haveria gritos de "mover a trave"? Os alunos geralmente gostam de saber, quando fazem um teste, quanto vale cada item. Eles podem ser justificados em reclamar ao ver, por exemplo, que algumas de suas respostas trabalhadas não acabaram contando muito.

Muitos professores e professores usam critérios subjetivos e sistemáticos para testes de pontuação. Mas aqueles que usam sistemas provavelmente têm receio de abrir esses sistemas a críticas específicas - algo que eles podem evitar em grande parte se se esconderem de abordagens mais subjetivas. Isso pode explicar por que a análise de itens e a TRI não são usadas mais amplamente do que são.

— rolando2
fonte

1

+1, espero que muitos professores e professores também não estejam familiarizados com o IRT.

— gung - Restabelece Monica

Absolutamente! Outra razão não estatística. Acho que a formação de professores neste país é tal que muitos que ensinam recebem pouca ou nenhuma formação em avaliação. E há pesquisadores e projetistas de teste treinados em avaliação que têm pouco ou nenhum treinamento em métodos de instrução.

— Rolando2

1

@ rolando2 - Tenho vergonha de ser economista por não ter me ocorrido o pensamento de incentivos ex-ante ou durante o teste. Se os participantes do teste estiverem lidando com um alvo em movimento e não souberem gastar seu tempo e esforço racionalmente respondendo a cada pergunta, isso provavelmente poderá ter efeitos realmente perversos!

— d_a_c321

Vejo como isso poderia desapontá-los, mas em que tipo de efeitos "perversos" você está pensando?

— Rolando2

6

Um primeiro argumento tem a ver com transparência. @ rolando2 já fez este ponto. Os alunos querem saber ex ante quanto vale cada item.

Um segundo argumento é que os pesos não refletem apenas o grau de dificuldade de uma pergunta, mas também o grau de importância que o instrutor atribui a uma pergunta. De fato, o objetivo de um exame é testar e certificar conhecimentos e competências. Como tal, os pesos atribuídos a diferentes perguntas e itens devem ser definidos previamente pelo professor. Você não deve esquecer que "todos os modelos estão errados e apenas alguns são úteis". Nesse caso, pode-se ter algumas dúvidas sobre a utilidade.

Dito isto, acho que a análise estatística (mais ou menos sofisticada) poderia ocorrer ex-post, para a análise dos resultados. Lá, pode render algumas idéias interessantes. Agora, se isso é feito e em que grau é feito, certamente depende das habilidades estatísticas do professor.

— Comunidade
fonte

2

Absolutamente! Como instrutor, o que estou procurando não é uma classificação relativa dos alunos - mas uma medida absoluta de compreensão e habilidades. Eu ficaria perfeitamente feliz (até encantado), se descobrisse que todos na classe eram medidos como tendo 100% de compreensão da matéria que estou ensinando. Portanto, os pesos das perguntas são escolhidos para refletir sua importância e quanto peso eles devem ter em uma avaliação geral da compreensão do assunto.

— DW

2

Eu queria esclarecer a questão original. Na teoria da resposta ao item, a discriminação (ou seja, inclinação do item ou carga fatorial) não é indicativa de dificuldade. O uso de um modelo que permita variar a discriminação de cada item está efetivamente ponderando-os de acordo com a correlação estimada com a variável latente, não pela dificuldade.

Em outras palavras, um item mais difícil pode ser ponderado se for estimado como não correlacionado com a dimensão do interesse e vice-versa, um item mais fácil poderá ser ponderado se for estimado como altamente correlacionado.

Eu concordo com as respostas anteriores que apontam para (a) a falta de conhecimento dos métodos de resposta ao item entre os praticantes, (b) o fato de que o uso desses modelos requer algum conhecimento técnico, mesmo que alguém esteja ciente de suas vantagens (especialmente a capacidade de avaliar o ajuste do modelo de medição), (c) as expectativas do aluno, conforme apontado por @ rolando2, e por último mas não menos importante (d) as considerações teóricas que os instrutores podem ter para ponderar diferentes itens de maneira diferente. No entanto, eu queria mencionar que:

Nem todos os modelos de teoria de resposta a itens permitem variação do parâmetro de discriminação, onde o modelo Rasch é provavelmente o exemplo mais conhecido de um modelo em que as discriminações entre itens são mantidas constantes. Sob a família de modelos Rasch, a pontuação da soma é uma estatística suficiente para a pontuação da resposta ao item; portanto, não haverá diferença na ordem dos entrevistados e as únicas diferenças práticas serão apreciadas se as 'distâncias' entre a pontuação grupos são considerados.
Existem pesquisadores que defendem o uso da teoria clássica dos testes (que se baseia no uso tradicional das pontuações da soma ou da média correta) por razões teóricas e empíricas. Talvez o argumento mais utilizado seja o fato de que as pontuações geradas na teoria de resposta ao item são efetivamente muito semelhantes às produzidas na teoria clássica dos testes. Veja, por exemplo, o trabalho de Xu & Stone (2011), Utilizando estimativas de características da TRI versus escores somados na previsão de resultados , medição educacional e psicológica , onde eles relatam correlações acima de 0,97 sob uma ampla variedade de condições.

— David
fonte

(+1) O primeiro parágrafo está muito bem colocado. Sobre o ponto 2, de alguma forma, perdi este artigo, então obrigado por compartilhar! Note-se que correlações de magnitude comparável seriam observadas com os modelos tradicionais de análise fatorial (onde as cargas imitam o parâmetro de discriminação - sob a estrutura dos CTT, seria o coeficiente de correlação ponto-biserial), desde que as dificuldades dos itens sejam distribuídas uniformemente na característica latente ( ou seja, itens não muito difíceis nem muito fáceis).

— chl

1

A pontuação de um aluno não deve se basear no que ele sabe e responde no teste, e não no que os demais alunos fazem?

Se você fez o mesmo teste em 2 anos diferentes e teve 2 alunos (1 em cada) que responderam exatamente às mesmas perguntas corretamente (sem trapaça), faz realmente sentido que eles recebessem notas diferentes com base no quanto os outros alunos a classe deles estudou?

E, pessoalmente, não quero motivar nenhum aluno a sabatoge seus colegas de classe no lugar de aprender o material.

O IRT pode fornecer algumas dicas sobre o teste, mas eu não o usaria para pesar ativamente as pontuações.

Quando penso em pesos, acho que alguém deve obter mais pontos por corrigir uma pergunta difícil, mas deve perder mais pontos por ter uma pergunta fácil errada. Combine-os e você ainda terá o mesmo peso. Ou, na verdade, tento ponderar com base no tempo ou esforço necessário para responder à pergunta, para que alguém que responda às perguntas em uma ordem diferente não tenha vantagem em um teste cronometrado.

— Greg Snow
fonte

Grandes organizações de teste que usam IRT também precisam se preocupar com a consistência entre a oferta do teste. A consistência da (s) variável (s) latente (s) é importante, mas é atingível.

— D Coetzee