Eu tenho uma tabela com duas colunas X e Y. Cada linha representa uma estatística agregada para uma instância. Apresento uma nova coluna como Z = X / Y, que é outra informação importante sobre a instância. Agora, quero apresentar as estatísticas gerais das instâncias (ou seja, Média).
Aqui tenho uma preocupação: Qual deles devo usar entre Média (X / Y) e Média (X) / Média (Y) para representar a Média de Z? Simplesmente, pode ser Média (X / Y) apenas porque Z = X / Y.
No entanto, tenho duas preocupações:
- Média (Y) * Média (Z)! = Média (X); torna difícil para as pessoas confiarem nos números.
- as diferenças entre Média (X / Y) e Média (X) / Média (Y) são significativas. As diferenças em si dizem algo significativo estatisticamente?
// Eu atualizo meu caso.
A tabela mantém os registros do usuário em um sistema. Os usuários podem fazer upload de dados para ele.
- X: o número de uploads
- Y: o volume de envios
- Z: Y / X; volume por upload
O que eu quero fazer é simular esse sistema com cargas de trabalho semelhantes ao real.
Simplesmente crio N instâncias de usuários (N não pode ser muito grande) com X '= Média (X) e Z' = Média (Z).
Portanto, durante a simulação, cada usuário carrega dados do volume total: (X ') * (Z').
Então, quando agrego os resultados da simulação, acabo com: Média (Y ')! = Média (Y).