Se você precisar imputar cada valor ausente, considere vários métodos de imputação ou interpolação para Séries Temporais. por exemplo, /programming/49308530/missing-values-in-time-series-in-python
Se o objetivo é simplesmente prever o tempo de entrada para o Estágio 10 e não se preocupar quando atingirem os estágios intermediários, você pode tratar um problema de regressão, ou seja, prever o tempo para o Estágio 10. A maneira mais simples pode ser essa - apenas trate-o como um problema de aprendizado supervisionado normal com alguns dados ausentes. O único passo extra é que você precisa criar alguma falta nos dados de treinamento / teste para corresponder aos dados que você marcará.
Seus dados de trem / teste consistem em todos os registros com os dados completos até o estágio 10.
Use a validação cruzada ou uma divisão de trem / teste dentro desses dados para criar um modelo preditivo para prever o tempo para Stg10. Dentro desses dados, esvazie aleatoriamente os dados entre Stg1 e Stg9 para simular o conjunto de dados de pontuação, mas mantenha o Stg10 conforme a necessidade de um rótulo para prever. Use um método baseado em árvore, como as florestas aleatórias, pois elas estão bem com a dependência entre as variáveis e lidam com os dados ausentes.
Use este modelo para pontuar os dados não marcados (ou seja, onde não há informações sobre Stg10). O problema restante é o nível de integridade dentro do conjunto de dados não rotulado. Se eles estiverem preenchidos com Stg9, você não terá nenhum problema. Se todos eles vão para Stg1, você tem um problema! Portanto, você precisará verificar se possui dados suficientes para suportar esse método.
Mas é um local válido para começar e pode ser suficiente para o seu objetivo.