Respostas:
É 99º percentil . Isso significa que 99% das solicitações devem ser mais rápidas que a latência fornecida. Em outras palavras, apenas 1% das solicitações pode ser mais lento.
Podemos explicar isso por analogia: se 100 alunos estiverem participando de uma corrida, 99 deverão concluir a corrida em tempo de "latência".
Imagine que você esteja coletando dados de desempenho do seu serviço e a tabela abaixo é a coleção de resultados (os valores de latência são fictícios para ilustrar a idéia).
Latency Number of requests
1s 5
2s 5
3s 10
4s 40
5s 20
6s 15
7s 4
8s 1
A latência P99 do seu serviço é 7s. Apenas 1% das solicitações demoram mais que isso. Portanto, se você pode diminuir a latência P99 do seu serviço, aumenta seu desempenho.
Vamos dar um exemplo daqui
Request latency:
min: 0.1
max: 7.2
median: 0.2
p95: 0.5
p99: 1.3
Então, podemos dizer que, 99% das solicitações da Web, a latência encontrada foi de 1,3ms (ms / microssegundos depende das medidas de latência do sistema configuradas) ou menor. Como o @tranmq disse, se diminuirmos a latência P99 do serviço, podemos aumentar seu desempenho.
E também vale a pena notar o p95, pois poucos pedidos tornam o p99 mais caro que o p95, por exemplo) pedidos iniciais que criam cache, aquecimento de objetos de classe, inicialização de threads ...
Finalmente; podemos ter cerca de 1% de ruído em nossas medições (como congestionamentos de rede, interrupções, degradações de serviços); portanto, a latência da p99 é um bom representante de praticamente o pior caso. E, quase sempre, nosso objetivo é reduzir a latência de p99.
Should
nãowill
.