Os visitantes únicos de um site seguem uma lei de energia?

Suponha que eu tenha um vetor ordenado em que o primeiro elemento seja o número de visitas a um site em um determinado período de tempo pelo IP exclusivo com o maior número de visitas, o segundo elemento seja o número de visitas pelo IP exclusivo com o segundo maior número de visitas e assim por diante. Eu entendo que pode haver variações por site, mas geralmente existe um padrão assumido para a forma desse vetor? Por exemplo, segue uma distribuição da lei do poder?

web power-law

— Jon Smark
fonte

Os IPs não corresponderão particularmente às pessoas devido ao endereçamento dinâmico e a vários outros problemas (como pessoas que usam vários computadores). Se eu quisesse testar essas hipóteses, provavelmente usaria a ID do visitante em vez do endereço IP.

— richiemorrisroe

Não, visitantes únicos de um site não seguem uma lei de energia.

Nos últimos anos, tem havido um rigor crescente no teste de reivindicações da lei de energia (por exemplo, Clauset, Shalizi e Newman 2009). Aparentemente, as alegações anteriores muitas vezes não foram bem testadas e era comum traçar os dados em uma escala log-log e confiar no "teste do globo ocular" para demonstrar uma linha reta. Agora que os testes formais são mais comuns, muitas distribuições acabam não seguindo as leis de energia.

As duas melhores referências que conheço que examinam as visitas de usuários na Web são Ali e Scarr (2007) e Clauset, Shalizi e Newman (2009).

Ali e Scarr (2007) analisaram uma amostra aleatória de cliques de usuários em um site do Yahoo e concluíram:

A sabedoria predominante é que a distribuição de cliques na web e visualizações de página segue uma distribuição de leis de energia sem escala. No entanto, descobrimos que uma descrição estatisticamente significativamente melhor dos dados é a distribuição Zipf-Mandelbrot sensível à escala e que suas misturas melhoram ainda mais o ajuste. Análises anteriores têm três desvantagens: eles usaram um pequeno conjunto de distribuições candidatas, analisaram o comportamento desatualizado da web do usuário (por volta de 1998) e usaram metodologias estatísticas questionáveis. Embora não possamos impedir que uma distribuição com melhor ajuste possa não ser encontrada um dia, podemos afirmar com certeza que a distribuição Zipf-Mandelbrot sensível à escala fornece um ajuste estatisticamente significativamente mais forte aos dados do que a lei de potência sem escala ou Zipf em uma variedade de verticais do domínio Yahoo.

Aqui está um histograma de cliques de usuários individuais ao longo de um mês e os mesmos dados em um gráfico de log-log, com modelos diferentes comparados. Os dados claramente não estão em uma linha direta de log-log esperada de uma distribuição de energia sem escala.

Figuras 2 e 4 de Ali e Scarr

Clauset, Shalizi e Newman (2009) compararam explicações sobre lei de potência com hipóteses alternativas usando testes de razão de verossimilhança e concluíram que hits e links da web "não podem ser considerados plausivelmente como seguindo uma lei de potência". Seus dados para o primeiro foram acessados pela web por clientes do serviço America Online na Internet em um único dia e, para o último, foram links para sites encontrados em um rastreamento da web de 1997 com cerca de 200 milhões de páginas. As imagens abaixo fornecem as funções de distribuição cumulativa P (x) e seu poder de lei de máxima probabilidade possível.

insira a descrição da imagem aqui

Para ambos os conjuntos de dados, Clauset, Shalizi e Newman descobriram que as distribuições de energia com conexões exponenciais para modificar a extremidade extrema da distribuição eram claramente melhores do que as distribuições da lei de energia pura e que as distribuições log-normais também eram boas. (Eles também analisaram hipóteses exponenciais exponenciais e ampliadas.)

Se você tem um conjunto de dados em mãos e não é apenas curioso, deve ajustá-lo a modelos diferentes e compará-los (em R: pchisq (2 * (logLik (modelo1) - logLik (modelo2)), df = 1, inferior. cauda = FALSO)). Confesso que não faço ideia de como modelar um modelo ZM ajustado a zero. Ron Pearson publicou um blog sobre distribuições ZM e, aparentemente, existe um pacote R zipfR. Eu provavelmente começaria com um modelo binomial negativo, mas não sou um estatístico real (e adoraria as opiniões deles).

(Eu também quero o segundo comentarista @richiemorrisroe acima, que aponta que os dados provavelmente são influenciados por fatores não relacionados ao comportamento humano individual, como programas que rastreiam a Web e endereços IP que representam os computadores de muitas pessoas.)

Artigos mencionados:

— MattBagg
fonte

@MattBag, Parece interessante, vai tentar isso neste caso stats.stackexchange.com/q/41286/13201 #

— #