Eu sei que os modelos estatísticos tradicionais como Cox Riscos Proporcionais de regressão e alguns modelos de Kaplan-Meier podem ser usados para prever dias até a próxima ocorrência de uma falha digamos evento etc. ie análise de sobrevida
Questões
- Como a versão de regressão de modelos de aprendizado de máquina como GBM, redes neurais etc. pode ser usada para prever dias até a ocorrência de um evento?
- Acredito que apenas o uso de dias até a ocorrência como variável de destino e a simples execução de um modelo de regressão não funcionará? Por que não funciona e como pode ser corrigido?
- Podemos converter o problema da análise de sobrevivência em uma classificação e obter probabilidades de sobrevivência? Se então, como criar a variável de destino binário?
- Quais são os prós e os contras da abordagem de aprendizado de máquina versus regressão de riscos proporcionais de Cox e modelos de Kaplan-Meier etc?
Imagine que os dados de entrada de amostra estejam no formato abaixo
Nota:
- O sensor faz o ping dos dados em intervalos de 10 minutos, mas às vezes os dados podem estar ausentes devido a um problema de rede, etc., conforme representado pela linha com NA.
- var1, var2, var3 são os preditores, variáveis explicativas.
- fail_flag informa se a máquina falhou ou não.
- Temos dados dos últimos 6 meses a cada 10 minutos para cada ID de máquina
EDITAR:
A previsão de saída esperada deve estar no formato abaixo
Nota: quero prever a probabilidade de falha de cada uma das máquinas nos próximos 30 dias no nível diário.
failure_flag
.