Eu tenho uma série temporal binária: temos 2160 dados (0 = não aconteceu, 1 = aconteceu) por um período de uma hora em 90 dias.
Quero prever depois desses 90 dias, onde o próximo 1 acontecerá, e também Estender essa provisão para o próximo mês.
Eu tenho uma série temporal binária: temos 2160 dados (0 = não aconteceu, 1 = aconteceu) por um período de uma hora em 90 dias.
Quero prever depois desses 90 dias, onde o próximo 1 acontecerá, e também Estender essa provisão para o próximo mês.
Respostas:
variável e, em seguida, use técnicas padrão de séries temporais para prever observações futuras (por exemplo, Holt-Winters). Deve ser possível codificar algo assim no Stan ou no JAGS, mas você pode não obter grandes previsões, dada a visão "sombria" que o processo de Bernoulli fornece sobre o estado latente.
O modelo mais simples seria regressão linear. Você pode plotar seus dados usando o ggplot:
#for reproducing
set.seed(200)
#simple example. Assume your data is simple binomial variable with probability 0.3
data <- data.frame(time = 1:200, val=sample(c(0,1), size = 200, replace = T, prob = c(0.3, 0.7)))
#plot using ggplot and add linear regression and confidence interval
ggplot(data, aes(x = time, y=val)) + geom_smooth(method=lm) +geom_point()
#Now we can try to create linear regression
y = data$time
x = data$val
fitData <- lm(x ~ y)
predict(fitData, newdata = data.frame(y=201:224), interval="confidence")
Este é o modelo mais simples, existem outros modelos não lineares que podem ajustar melhor seus dados. Além disso, lembre-se de que talvez você precise usar o registro de data para obter melhor ajuste. Em regressões não lineares, como a regressão polinomial, você pode ler muito aqui
Agora, isso exigiria análises adicionais, mas é essencial estabelecer se seus eventos são independentes. É possível que exista algum tipo de variável confusa que você talvez não considere. Convém examinar a regressão linear bayesiana (desde que você obtenha mais dimensões do que apenas tempo e valores sim / não) aqui
Dados de acidentes? Eu começaria assumindo que há sazonalidade horária e sazonalidade diária. Sem saber o tipo de acidente, pode ser que você considere o pool de hora em hora de segunda a sexta-feira e trabalhe de hora em hora para sábado e domingo separadamente, para ter 3 pools de horas, 24 (segunda a sexta), 24 (sábado) e 24 (dom).
Pode ser possível reduzir ainda mais os dados, mas assumindo que não, basta fazer as médias. Por exemplo, a média para o domingo às 15h pode ser 0,3 (chance de 30% de um acidente). A média das 16h pode ser 0,2 e assim por diante.
A probabilidade de nenhum acidente ocorrer às 15:00 ou 16:00 seria (1-.3) (1-.2) = .56, portanto, a probabilidade de ocorrer um acidente nessas duas horas seria de 0,44 e assim por diante.
Este parece ser um bom lugar simples para começar.