Aha, excelente pergunta !!
Eu também teria proposto ingenuamente uma curva logisítica em forma de S, mas isso é obviamente um ajuste inadequado. Até onde eu sei, o aumento constante é uma aproximação, porque o YouTube conta as visualizações únicas (uma por endereço IP), portanto, não pode haver mais visualizações do que computadores.
Poderíamos usar um modelo epidemiológico em que as pessoas têm suscetibilidade diferente. Para simplificar, poderíamos dividi-lo no grupo de alto risco (digamos as crianças) e no grupo de baixo risco (digamos os adultos). Vamos chamar a proporção de crianças "infectadas" e y ( t ) a proporção de adultos "infectados" no momento t . Vou chamar X o número (desconhecido) de indivíduos no grupo de alto risco e Y o número (também desconhecido) de indivíduos no grupo de baixo risco.x ( t )y( T )tXY
˙ y (t)=r2(x(t)+y(t))(Y-y(t)),
x˙( t ) = r1 1( x ( t ) + y( t ) ) ( X- x ( t ) )
y˙( t ) = r2( x ( t ) + y( t ) ) ( Y- y( T ) ) ,
onde . Não sei como resolver esse sistema (talvez o @EpiGrad o faria), mas, olhando seus gráficos, poderíamos fazer algumas suposições simplificadoras. Como o crescimento não satura, podemos assumir que Y é muito grande e y é pequeno, our1 1> r2Yy
˙ y (t)=r2x(t),
x˙( t ) = r1 1x ( t ) ( X- x ( t ) )
y˙( t ) = r2x ( t ) ,
que prevê crescimento linear quando o grupo de alto risco estiver completamente infectado. Observe que, com este modelo, não há razão para assumir , muito pelo contrário, porque o grande termo Y - y ( t ) agora está subsumido em r 2 .r1 1> r2Y- y( T )r2
Este sistema resolve para
y(t)=R2∫x(t)dt+C2=R2
x ( t ) = XC1 1eXr1 1t1 + C1 1eXr1 1t
y( t ) = r2∫x ( t ) dt + C2= r2r1 1registro( 1 + C1 1eXr1 1t) + C2,
C1 1C2x ( t ) + y( T )
0 0600 , 000 , 000x ( t )y( T )
x˙( t ) = r1 1x ( t ) ( X- x ( t ) )
y˙( t ) = r2,
e resolve
x ( t ) = XC1 1eXr1 1t1 + C1 1eXr1 1t
y( t ) = r2t + C2.
x ( 0 ) = 1t = 0C1 1= 1X- 1≈ 1XXC2= y( 0 )C2= 0Xr1 1r2
X= 600 , 000 , 000r1 1= 3,666 ⋅ 10- 10r2= 1 , 000 , 000
Atualização: A partir dos comentários, concluí que o YouTube conta visualizações (de maneira secreta) e não IPs únicos, o que faz uma grande diferença. De volta à prancheta.
Para simplificar, vamos supor que os espectadores estejam "infectados" pelo vídeo. Eles voltam para assisti-lo regularmente, até limpar a infecção. Um dos modelos mais simples é o SIR (Susceptible-Infected-Resistant), que é o seguinte:
S˙( t ) = - α S( T ) I( T )
Eu˙( t ) = α S( T ) I( t ) - βEu( T )
R˙( t ) = βEu( T )
αβx ( t )x˙( t ) = k I( T )k
Nesse modelo, a contagem de visualizações começa a aumentar abruptamente algum tempo após o início da infecção, o que não é o caso dos dados originais, talvez porque os vídeos também se espalhem de maneira não viral (ou meme). Não sou especialista em estimar os parâmetros do modelo SIR. Apenas brincando com valores diferentes, eis o que eu criei (em R).
S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
dS = -a*I*S;
dI = a*I*S - b*I;
S = S+dS;
I = I+dI;
views[i+1] = views[i] + k*I
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)
Obviamente, o modelo não é perfeito e pode ser complementado de várias maneiras. Este esboço aproximado prevê um bilhão de visualizações em março de 2013, vejamos ...