QUESTÃO:
Eu tenho dados binários nas perguntas do exame (correto / incorreto). Algumas pessoas podem ter tido acesso prévio a um subconjunto de perguntas e suas respostas corretas. Não sei quem, quantos ou quais. Se não houve trapaça, suponha que eu modele a probabilidade de uma resposta correta para o item como , em que representa a dificuldade da pergunta e é a capacidade latente do indivíduo. Este é um modelo de resposta a itens muito simples que pode ser estimado com funções como rasch () de ltm em R. Além das estimativas (onde indexa indivíduos) da variável latente, tenho acesso a estimativas separadasl o g i t ( ( p i = 1 | z ) ) = β i + z β i z z j j q j da mesma variável latente que foi derivada de outro conjunto de dados em que a trapaça não era possível.
O objetivo é identificar os indivíduos que provavelmente trapacearam e os itens em que eles trapacearam. Quais são algumas das abordagens que você pode adotar? Além dos dados brutos, , e estão todos disponíveis, embora os dois primeiros tenham algum viés devido a trapaça. Idealmente, a solução viria na forma de agrupamento / classificação probabilística, embora isso não seja necessário. As idéias práticas são muito bem-vindas, assim como as abordagens formais.
Até agora, comparei a correlação das pontuações das perguntas para pares de indivíduos com pontuações mais altas ou mais baixas (onde está um índice aproximado da probabilidade de que eles trapacearam). Por exemplo, classifiquei os indivíduos por e depois plotei a correlação de pares sucessivos de pontuações de perguntas dos indivíduos. Também tentei traçar a correlação média de pontuações para indivíduos cujos valores eram maiores que o quantil de , em função de . Não há padrões óbvios para nenhuma das abordagens.
ATUALIZAR:
Acabei combinando idéias de @SheldonCooper e o útil artigo Freakonomics que @whuber me apontou. Outras idéias / comentários / críticas são bem-vindas.
Seja X_ {ij} a pontuação binária da pessoa na pergunta . Estime o logit do modelo de resposta ao item (Pr (X_ {ij} = 1 | z_j) = \ beta_i + z_j, em
A probabilidade da pontuação observada , condicionada à facilidade do item e à capacidade da pessoa, pode ser escrita que é a probabilidade prevista de uma resposta correta e é o logit inverso. Então, condicional às características do item e da pessoa, a probabilidade conjunta de que a pessoa tenha as observações é e, similarmente, a probabilidade conjunta do item tem as observações p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i , ^ q J ) ) 1 - x
Uma etapa adicional que tentei é obter r% das pessoas menos prováveis (ou seja, pessoas com o menor r% dos valores de p_j classificados), calcular a distância média entre as pontuações observadas x_j (que devem ser correlacionadas para pessoas com r baixo, que são possíveis trapaceiros) e plote-o para r = 0,001, 0,002, ..., 1.000. A distância média aumenta para r = 0,001 para r = 0,025, atinge o máximo e depois diminui lentamente para o mínimo em r = 1. Não é exatamente o que eu estava esperando.