Simplificando um pouco, tenho cerca de um milhão de registros que registram o tempo de entrada e saída das pessoas em um sistema que dura cerca de dez anos. Todo registro tem um horário de entrada, mas nem todo registro tem um horário de saída. O tempo médio no sistema é de ~ 1 ano.
Os horários de saída ausentes ocorrem por dois motivos:
- A pessoa não saiu do sistema no momento em que os dados foram capturados.
- O horário de saída da pessoa não foi registrado. Isso acontece por dizer 50% dos registros
As questões de interesse são:
- As pessoas estão gastando menos tempo no sistema e quanto menos tempo.
- Há mais tempos de saída sendo gravados e quantos.
Podemos modelar isso dizendo que a probabilidade de uma saída ser registrada varia linearmente com o tempo e que o tempo no sistema possui um Weibull cujos parâmetros variam linearmente com o tempo. Podemos então fazer uma estimativa de máxima probabilidade dos vários parâmetros e observar os resultados e considerá-los plausíveis. Escolhemos a distribuição Weibull porque ela parece ser usada na medição de vidas úteis e é divertido dizer em oposição a ajustar os dados melhor do que uma distribuição gama.
Onde devo procurar uma pista sobre como fazer isso corretamente? Nós somos um tanto matematicamente esclarecidos, mas não extremamente esclarecidos estatisticamente.