Suponha que você tenha os logs de um servidor da web. Nesses logs, você possui tuplas deste tipo:
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
Esses registros de data e hora representam, por exemplo, os cliques dos usuários. Agora, user1
você visitará o site várias vezes (sessões) durante o mês e você terá rajadas de cliques de cada usuário durante cada sessão (supondo que, quando um usuário visitar o site, ele clicará em várias páginas).
Suponha que você queira particionar esses cliques nas sessões que os geraram, mas não possui nenhuma fonte adicional de informações, apenas a lista de carimbos de data e hora. Se você calcular a distribuição de intervalos entre dois cliques subsequentes do mesmo usuário, obterá uma distribuição de cauda longa. Intuitivamente, você procuraria por um "parâmetro de corte", por exemplo, N segundos, onde se timestamp_{i+1} - timestamp{i} > N
, então, você timestamp_{i+1}
é o início da nova sessão.
O problema é que essa distribuição, na realidade, é uma mistura de duas variáveis: X = "intervalo entre dois cliques subsequentes na mesma sessão" e Y = "intervalo entre o último clique da sessão anterior e o primeiro da nova".
A questão é: como estimar esse N, que divide as duas distribuições (com um pouco de sobreposição, possivelmente) apenas observando a explosão de cliques?