Dados números, em que o valor de cada número é diferente, indicado como , e a probabilidade de selecionar cada número é , respectivamente.
Agora, se eu selecionar números base nas probabilidades fornecidas, onde , qual é a expectativa da soma desses números ? Observe que a seleção é sem substituição, para que os números não possam envolver números duplicados. Entendo que, se a seleção for com substituição, a expectativa da soma dos números é igual a , onde
Além disso, e a expectativa da variação desses números ?
Eu sou um estudante de doutorado em CS que está trabalhando em um problema de grande volume de dados e não tenho formação em estatística. Espero que alguém possa me dar uma fórmula como resposta. No entanto, se a resposta for muito complicada para ser descrita por uma fórmula ou for necessário envolver computação intensiva, uma resposta aproximada é totalmente aceitável.
Você pode assumir que aqui é bastante grande e a probabilidade pode variar muito. Na prática, os valores dessas probabilidades vêm de um log de consultas, que registra uma série de consultas de agregação. O ponto é que a frequência de cada número envolvido nas consultas pode ser bastante distorcida, ou seja, alguns são raramente consultados, enquanto outros são consultados com muita frequência. Você pode assumir que a distribuição de probabilidade é distribuição normal, distribuição zipf ou qualquer outra alternativa razoável.
A distribuição de valor é apenas um subconjunto contíguo de qualquer distribuição possível. Em outras palavras, se você tiver um histograma que represente uma determinada distribuição, todos os números envolvidos nesse problema serão todos em um único intervalo.
Em termos do valor de K, você pode supor que seja sempre menor que o número de elementos frequentemente consultados.