Sou desenvolvedor web e estatístico iniciante.
Meus dados são mais ou menos assim
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
Estou tentando prever y1 como um produto das variáveis x. No entanto, tenho razões para acreditar que pode haver um atraso no efeito das múltiplas variáveis x em y1, ou seja, as variáveis x da semana 1 para o sujeito A influenciam y1 para o sujeito A na semana 2.
Observe que nem todos os assuntos terão pontos de dados para cada semana (na verdade, a maioria não). Os sujeitos tendem a ter pontos de dados para, digamos, a semana 1, 2, 3, 4 e depois desaparecem e não aparecem novamente até a semana 7,8,9. Estou disposto a restringir minha análise aos pontos de dados em que temos dados das N semanas anteriores, dada minha hipótese sobre o atraso.
Como eu disse, sou iniciante e não tenho certeza da melhor maneira de lidar com um conjunto de dados deste formulário. Espero realizar essa análise em R, Python ou em alguma combinação dos dois. Eu não acho que as variáveis x da semana atual não terão efeito. Eu acho que eles terão algum efeito, talvez maior que nas semanas anteriores. Só acredito que as semanas anteriores terão algum efeito.
Espero que haja duas a três semanas de atraso. Para dar um pouco de contexto, a análise que estou tentando aqui refere-se a julgar a qualidade do tráfego online. Toda semana, recebo uma pontuação com a qualidade de um determinado fluxo de usuários que envio a um determinado site. Estou tentando encontrar métricas secundárias, como distribuição do navegador, porcentagem de cliques duplicados etc., que me permitirão prever qual será essa pontuação antes do tempo.