Suponha que eu tenha um painel de variáveis explicativas , para , , bem como um vector de variáveis dependentes resultado binário . Então é observado apenas no tempo final e não em nenhum momento anterior. O caso totalmente geral é ter múltiplos para para cada unidade a cada momento , mas vamos nos concentrar no caso por questões de brevidade.
Aplicações desses "desequilibrados" pares X , Y ) com variáveis explicativas correlacionadas temporais são, por exemplo (preços diários das ações, dividendos trimestrais), (boletins meteorológicos diários, furacões anuais) ou (características da posição do xadrez após cada movimento, resultado de ganhos / perdas em final do jogo).
Estou interessado nos coeficientes de regressão (possivelmente não lineares) para fazer a previsão de Y i t , sabendo que nos dados de treinamento, dadas observações precoces de X i t para t < T , isso leva ao resultado final Y i T
Vindo de uma experiência em econometria, não vi muita modelagem de regressão aplicada a esses dados. OTOH, vi as seguintes técnicas de aprendizado de máquina sendo aplicadas a esses dados:
- fazendo aprendizado supervisionado em todo o conjunto de dados, por exemplo, minimizando
simplesmente extrapolando / imputando o observado a todos os pontos anteriores no tempo
Isso parece "errado" porque não levará em consideração a correlação temporal entre os diferentes pontos no tempo.
- realizando aprendizado de reforço , como diferença temporal, com o parâmetro de aprendizado e o parâmetro de desconto λ , e resolvendo recursivamente o β t através da propagação reversa a partir de t = T
com o gradiente de f ( ) com respeito ao β .
Isso parece mais "correto" porque leva em conta a estrutura temporal, mas os parâmetros e λ são uma espécie de "ad hoc".
Pergunta : existe literatura sobre como mapear as técnicas de aprendizado supervisionado / reforçado acima em uma estrutura de regressão, conforme usado em estatística / econometria clássica? Em particular, eu gostaria de poder estimar os parâmetros em "one go" (ou seja, para todos t = 1 ... T simultaneamente) fazendo mínimos quadrados (não lineares) ou probabilidade máxima em modelos como Como
Eu também estaria interessado em saber se a diferença temporal está aprendendo os meta-parâmetros e λ poderia ser recuperada a partir de uma formulação de probabilidade máxima.