Costumo criar um modelo (classificação ou regressão) em que tenho algumas variáveis preditoras que são sequências e tenho tentado encontrar recomendações técnicas para resumi-las da melhor maneira possível para inclusão como preditores no modelo.
Como exemplo concreto, digamos que um modelo esteja sendo construído para prever se um cliente deixará a empresa nos próximos 90 dias (a qualquer momento entre t e t + 90; portanto, um resultado binário). Um dos preditores disponíveis é o nível do saldo financeiro dos clientes nos períodos t_0 a t-1. Talvez isso represente observações mensais para os 12 meses anteriores (ou seja, 12 medições).
Estou procurando maneiras de construir recursos desta série. Eu uso descritivos de cada série de clientes, como média, alta, baixa e desvio padrão, ajustam uma regressão OLS para obter a tendência. Existem outros métodos para calcular recursos? Outras medidas de mudança ou volatilidade?
ADICIONAR:
Como mencionado na resposta abaixo, eu também considerei (mas esqueci de adicionar aqui) usar o Dynamic Time Warping (DTW) e, em seguida, o cluster hierárquico na matriz de distância resultante - criando algum número de clusters e depois usando a associação do cluster como um recurso. A pontuação dos dados de teste provavelmente teria que seguir um processo em que a DTW fosse realizada em novos casos e nos centróides de cluster - combinando a nova série de dados com os centróides mais próximos ...