Estou construindo um modelo preditivo que prevê a probabilidade de sucesso de um aluno no final de um semestre. Estou especificamente interessado em saber se o aluno é bem-sucedido ou não, onde o sucesso é geralmente definido como a conclusão do curso e a obtenção de 70% ou mais pontos do total de pontos possíveis.
Quando implanto o modelo, a estimativa da probabilidade de sucesso precisa ser atualizada ao longo do tempo à medida que mais informações se tornam disponíveis - idealmente imediatamente após algo acontecer, como quando um aluno envia uma tarefa ou obtém uma nota em uma. Essa atualização me parece um pouco bayesiana, mas, dada minha formação em estatística educacional, isso está um pouco fora da minha zona de conforto.
Até agora, tenho usado regressão logística (na verdade laço) com um conjunto de dados históricos contendo instantâneos baseados em semanas. Este conjunto de dados correlacionou observações, uma vez que cada aluno possui observações ; as observações de um aluno estão correlacionadas. Não estou modelando especificamente a correlação nas observações semanais de um aluno em particular. Acredito que eu precisaria considerar isso apenas em um ambiente inferencial, pois os erros padrão seriam muito pequenos. Eu acho - mas não tenho certeza disso - que o único problema decorrente das observações correlacionadas é que preciso ter cuidado ao validar cruzadamente para manter as observações agrupadas em um subconjunto dos dados, para que eu não receba taxas de erro fora da amostra artificialmente baixas com base em fazer previsões sobre uma pessoa que o modelo já viu.
Estou usando o pacote glmnet do R para fazer um laço com um modelo logístico para gerar uma probabilidade de sucesso / falha e escolher automaticamente preditores para um curso específico. Eu tenho usado a variável semana como um fator, interagido com todos os outros preditores. Eu não acho que isso difere em geral apenas de estimar modelos individuais baseados em semanas, exceto que dá uma idéia de como pode haver algum modelo comum que se mantenha ao longo do prazo, que é ajustado por vários fatores de ajuste de risco em semanas diferentes.
Minha principal pergunta é a seguinte: existe uma maneira melhor de atualizar as probabilidades de classificação ao longo do tempo, em vez de apenas dividir os dados em snapshots semanais (ou outros intervalos), introduzindo uma variável de fator de período de tempo interagida com todos os outros recursos e usando recursos cumulativos (pontos acumulados ganhos, dias acumulados em sala de aula etc.)?
Minha segunda pergunta é: estou perdendo algo crítico aqui sobre modelagem preditiva com observações correlatas?
Minha terceira pergunta é: como posso generalizar isso para uma atualização em tempo real, pois estou fazendo snapshots semanais? Estou planejando apenas inserir variáveis para o intervalo semanal atual, mas isso me parece um desdém.
Para sua informação, sou treinado em estatísticas educacionais aplicadas, mas tenho experiência em estatísticas matemáticas há muito tempo. Posso fazer algo mais sofisticado se fizer sentido, mas preciso explicá-lo em termos relativamente acessíveis.