Tradicionalmente, usamos modelo misto para modelar dados longitudinais, ou seja, dados como:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
podemos assumir interceptação ou inclinação aleatória para pessoas diferentes. No entanto, a pergunta que estou tentando resolver envolverá enormes conjuntos de dados (milhões de pessoas, 1 mês de observação diária, ou seja, cada pessoa terá 30 observações), atualmente não sei se existem pacotes que podem fazer esse nível de dados.
Eu tenho acesso ao spark / mahout, mas eles não oferecem modelos mistos, minha pergunta é: existe alguma maneira de modificar meus dados para que eu possa usar o RandomForest ou o SVM para modelar esse conjunto de dados?
Alguma técnica de engenharia de recursos que eu possa usar para ajudar o RF / SVM a explicar a correlação automática?
Muito Obrigado!
Alguns métodos em potencial, mas não tive tempo para escrevê-los