Para as pessoas que acham que não é uma ótima ideia, eu diria que depende. Você pode ter um grande sistema de invasão ou um sistema de arquivos paralelo que proporcionará um desempenho realmente melhor do que um processo cp pode suportar. Então sim, você precisa usar uma "ferramenta paralela".
Vamos pegar este exemplo:
timeout 10 strace -e write -c cp /dev/zero /dev/null
strace: Process 24187 detached
% time seconds usecs/call calls errors syscall
------ ----------- ----------- --------- --------- ----------------
100.00 0.655188 4 166222 write
------ ----------- ----------- --------- --------- ----------------
100.00 0.655188 166222 total
então isso
timeout 0.01 strace -e write cp /dev/zero /dev/null
write(4, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 65536) = 65536
write(4, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 65536) = 65536
write(4, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 65536) = 65536
write(4, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 65536) = 65536
write(4, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 65536) = 65536
write(4, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 65536) = 65536
write(4, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 65536) = 65536
strace: Process 24567 detached
portanto, cada gravação syscall feita por "cp", nesse caso, é de 64KiB e, por 10s no meu sistema, posso fornecer essa largura de banda: 65536 * 166222/10 = 1089352499 = ~ 1,08GB / s
Agora, vamos lançar essa carga de trabalho com 2 processos (eu tenho 4 núcleos, mas minha área de trabalho é usada para outras coisas, e aqui está apenas um exemplo):
timeout 10 strace -e write -c cp /dev/zero /dev/null & timeout 10 strace -e write -c cp /dev/zero /dev/null & wait
[1] 26106
[2] 26107
strace: Process 26113 detached
strace: Process 26112 detached
% time seconds usecs/call calls errors syscall
% time seconds usecs/call calls errors syscall
------ ----------- ----------- --------- --------- ----------------
------ ----------- ----------- --------- --------- ----------------
100.00 0.624108 4 162616 write
100.00 0.638468 4 162451 write
------ ----------- ----------- --------- --------- ----------------
100.00 0.624108 162616 total
100.00 0.638468 162451 total
------ ----------- ----------- --------- --------- ----------------
[1]- Exit 124 timeout 10 strace -e write -c cp /dev/zero /dev/null
Então, vemos que somos capazes de quase dobrar o desempenho usando 2 núcleos para lançá-lo.
Portanto, se estivermos em um contexto diferente de unidade 1xHard para unidade 1xHard, mas uma matriz de incursões (ou vários NVMe, então não é o caso mais comum, eu concordo, mas trabalho nisso todos os dias), isso mostra definitivamente um melhor desempenho para usar vários paralelo.