Eu gostaria de usar um modelo de regressão logística binária no contexto de streaming de dados (séries temporais multidimensionais) para prever o valor da variável dependente dos dados (ou seja, linha) que acabou de chegar, dadas as observações anteriores. Até onde eu sei, a regressão logística é tradicionalmente usada para análise post-mortem, onde cada variável dependente já foi definida (por inspeção ou pela natureza do estudo).
No entanto, o que acontece no caso de séries temporais, onde queremos fazer previsões (em tempo real) sobre a variável dependente em termos de dados históricos (por exemplo, em uma janela de tempo dos últimos segundos) e, é claro, na anterior estimativas da variável dependente?
E se você vir o sistema acima ao longo do tempo, como ele deve ser construído para que a regressão funcione? Temos que treiná-lo primeiro rotulando, digamos, as primeiras 50 linhas de nossos dados (ou seja, definindo a variável dependente como 0 ou 1) e, em seguida, use a estimativa atual do vetor para estimar a nova probabilidade da variável dependente ser 0 ou 1 para os dados que acabaram de chegar (ou seja, a nova linha que acabou de ser adicionada ao sistema)?
Para deixar meu problema mais claro, estou tentando criar um sistema que analise um conjunto de dados linha por linha e tente prever um resultado binário (variável dependente), considerando o conhecimento (observação ou estimativa) de todos os dependentes ou explicativos anteriores. variáveis que chegaram em uma janela de tempo fixo. Meu sistema está em Rerl e usa R para a inferência.