dd: Como calcular o tamanho ideal do bloco? [fechadas]


122

Como você calcula o tamanho ideal do bloco ao executar um dd? Eu pesquisei um pouco e não encontrei nada sugerindo como isso seria realizado.

Estou com a impressão de que um tamanho de bloco maior resultaria em um mais rápido dd... isso é verdade?

Estou prestes a dddois HDDs Hitachi idênticos de 500 gb que rodam a 7200 rpm em uma caixa executando um Intel Core i3 com 4 GB de DDR3 1333 mhz de RAM, então estou tentando descobrir qual tamanho de bloco usar. (Vou iniciar o Ubuntu 10.10 x86 a partir de uma unidade flash e executá-lo a partir disso.)


Resposta adotada no @ tdg5 para macOS - macos_dd_ibs_test.sh e macos_dd_obs_test.sh
mixel:

1
melhor resposta seria a de contribuir com um recurso para ddencontrar o melhor tamanho de bloco durante a transferência do arquivo
Boris

Por que esse tópico foi marcado e não foi migrado para o superusuário?
user267092

Respostas:


95

O tamanho ideal do bloco depende de vários fatores, incluindo o sistema operacional (e sua versão) e os vários barramentos e discos de hardware envolvidos. Vários sistemas do tipo Unix (incluindo Linux e pelo menos alguns tipos de BSD) definem o st_blksizemembro no struct statque fornece o que o kernel pensa que é o tamanho ideal do bloco:

#include <sys/stat.h>
#include <stdio.h>

int main(void)
{
    struct stat stats;

    if (!stat("/", &stats))
    {
        printf("%u\n", stats.st_blksize);
    }
}

A melhor maneira pode ser experimentar: copie um gigabyte com vários tamanhos de bloco e tempo. (Lembre-se de limpar os caches do buffer do kernel antes de cada execução:) echo 3 > /proc/sys/vm/drop_caches.

No entanto, como regra geral, descobri que um tamanho de bloco grande o suficiente permite ddfazer um bom trabalho, e as diferenças entre, digamos, 64 KiB e 1 MiB são menores, em comparação com 4 KiB versus 64 KiB. (Embora, reconhecidamente, já tenha sido um tempo desde que eu fiz isso. Eu uso um mebibyte por padrão agora, ou deixo ddescolher o tamanho.)


11
Sinto muito por nunca aceitar isso como resposta ... obrigado!
Eckza 01/04/12

Excelente ponto sobre lembrar de soltar caches. Isso estava atrapalhando minhas medições! (Embora questão menor: é "drop_caches", com um sublinhado Aparentemente edita necessidade de ter pelo menos 6 caracteres ... :(.)
Tom

73

Como outros já disseram, não há tamanho de bloco universalmente correto; o que é ideal para uma situação ou uma peça de hardware pode ser terrivelmente ineficiente para outra. Além disso, dependendo da integridade dos discos, pode ser preferível usar um tamanho de bloco diferente do que é "ideal".

Uma coisa que é bastante confiável no hardware moderno é que o tamanho padrão do bloco de 512 bytes tende a ser quase uma ordem de magnitude mais lenta que uma alternativa mais ideal. Na dúvida, descobri que 64K é um padrão moderno bastante sólido. Embora 64K geralmente não seja o tamanho ideal de bloco, na minha experiência, ele tende a ser muito mais eficiente que o padrão. O 64K também tem um histórico bastante sólido de desempenho confiável: Você pode encontrar uma mensagem na lista de discussão Eug-Lug, por volta de 2002, recomendando um tamanho de bloco de 64K aqui: http://www.mail-archive.com/eug- lug@efn.org/msg12073.html

Para determinar o tamanho ideal do bloco de saída, escrevi o seguinte script que testa a gravação de um arquivo de teste de 128M com dd em um intervalo de tamanhos de bloco diferentes, do padrão de 512 bytes a um máximo de 64M. Esteja avisado, este script usa dd internamente, portanto, use com cuidado.

dd_obs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_obs_testfile}
TEST_FILE_EXISTS=0
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=1; fi
TEST_FILE_SIZE=134217728

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Calculate number of segments required to copy
  COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))

  if [ $COUNT -le 0 ]; then
    echo "Block size of $BLOCK_SIZE estimated to require $COUNT blocks, aborting further tests."
    break
  fi

  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Create a test file with the specified block size
  DD_RESULT=$(dd if=/dev/zero of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync 2>&1 1>/dev/null)

  # Extract the transfer rate from dd's STDERR output
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  # Clean up the test file if we created one
  if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

  # Output the result
  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

Ver no GitHub

Eu testei esse script apenas em um sistema Debian (Ubuntu) e no OSX Yosemite, portanto, provavelmente será necessário algum ajuste para fazer funcionar outros tipos de Unix.

Por padrão, o comando criará um arquivo de teste chamado dd_obs_testfile no diretório atual. Como alternativa, você pode fornecer um caminho para um arquivo de teste personalizado, fornecendo um caminho após o nome do script:

$ ./dd_obs_test.sh /path/to/disk/test_file

A saída do script é uma lista dos tamanhos de bloco testados e suas respectivas taxas de transferência da seguinte forma:

$ ./dd_obs_test.sh
block size : transfer rate
       512 : 11.3 MB/s
      1024 : 22.1 MB/s
      2048 : 42.3 MB/s
      4096 : 75.2 MB/s
      8192 : 90.7 MB/s
     16384 : 101 MB/s
     32768 : 104 MB/s
     65536 : 108 MB/s
    131072 : 113 MB/s
    262144 : 112 MB/s
    524288 : 133 MB/s
   1048576 : 125 MB/s
   2097152 : 113 MB/s
   4194304 : 106 MB/s
   8388608 : 107 MB/s
  16777216 : 110 MB/s
  33554432 : 119 MB/s
  67108864 : 134 MB/s

(Nota: a unidade das taxas de transferência variará de acordo com o sistema operacional)

Para testar o tamanho ideal do bloco de leitura, você pode usar mais ou menos o mesmo processo, mas em vez de ler de / dev / zero e gravar no disco, você deve ler do disco e gravar em / dev / null. Um script para fazer isso pode ser assim:

dd_ibs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_ibs_testfile}
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=$?; fi
TEST_FILE_SIZE=134217728

# Exit if file exists
if [ -e $TEST_FILE ]; then
  echo "Test file $TEST_FILE exists, aborting."
  exit 1
fi
TEST_FILE_EXISTS=1

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Create test file
echo 'Generating test file...'
BLOCK_SIZE=65536
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))
dd if=/dev/urandom of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync > /dev/null 2>&1

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Read test file out to /dev/null with specified block size
  DD_RESULT=$(dd if=$TEST_FILE of=/dev/null bs=$BLOCK_SIZE 2>&1 1>/dev/null)

  # Extract transfer rate
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

Ver no GitHub

Uma diferença importante nesse caso é que o arquivo de teste é um arquivo gravado pelo script. Não aponte este comando para um arquivo existente ou o arquivo existente será substituído por zeros!

Para meu hardware em particular, descobri que 128K era o tamanho de bloco de entrada mais ideal em um HDD e 32K era o melhor em um SSD.

Embora esta resposta cubra a maioria das minhas descobertas, já me deparei com essa situação várias vezes em que escrevi uma postagem sobre o blog: http://blog.tdg5.com/tuning-dd-block-size/ Você pode encontrar mais detalhes nos testes que realizei lá.


1
Eu executei o segundo script, testando o desempenho de leitura, em um rMBP 2015 com SSD 512G. O melhor tamanho de bloco foi 8388608: 3,582 GB bytes / s.
Quinn Comendant 01/03

1
CORREÇÃO: Executei o segundo script, testando o desempenho de leitura, em um rMBP 2015 com SSD de 512 GB. O melhor tamanho de bloco foi 524288 (5,754 GB / s). O segundo melhor tamanho de bloco foi 131072 (5,133 GB / s). (I ordenados os resultados incorretamente na geração de valores para o meu último comentário.)
Quinn Comendant

Pois dd_obs_test.sh conv=fsyncnão funciona no macOS e pode ser removido.
Rynop 19/05/19

Na minha experiência, a comparação de tamanhos de bloco maiores precisa de uma amostra maior para ser precisa (vários segundos. Eu acho que um arquivo de 128 MB deve ser suficiente, mas não tenho certeza). Não sei por que.
Rolf

2
Cara! Que resposta incrível. É como encontrar uma mina de ouro, desenterrar uma tonelada de terra e depois processá-la para encontrar o NUGGET DE OURO que eu queria: 64K Muito obrigado.
SDsolar

10

Descobri que meu tamanho ideal de bloco é de 8 MB (igual ao cache do disco?). Precisava limpar (alguns dizem: lavar) o espaço vazio em um disco antes de criar uma imagem compactada. Eu usei:

cd /media/DiskToWash/
dd if=/dev/zero of=zero bs=8M; rm zero

Eu experimentei valores de 4K a 100M.

Depois de deixar o dd rodar por um tempo, eu o matei (Ctlr + C) e li a saída:

36+0 records in
36+0 records out
301989888 bytes (302 MB) copied, 15.8341 s, 19.1 MB/s

Como o dd exibe a taxa de entrada / saída (19,1 MB / s neste caso), é fácil ver se o valor que você escolheu está executando melhor que o anterior ou pior.

Minhas pontuações:

bs=   I/O rate
---------------
4K    13.5 MB/s
64K   18.3 MB/s
8M    19.1 MB/s <--- winner!
10M   19.0 MB/s
20M   18.6 MB/s
100M  18.6 MB/s   

Nota: Para verificar qual é o tamanho do cache / buffer do disco, você pode usar sudo hdparm -i /dev/sda


4
Você executou cada teste apenas uma vez? Acho que o que você pode ver em ≥64K é que o buffer já está cheio e a diferença é apenas variação aleatória.
Mads Y

Já ouvi falar de grandes valores que potencialmente prejudicam o sistema. A pessoa estava trabalhando com um arquivo grande. Seria bom se eu pudesse ouvir mais sobre isso.
Todd Partridge

1
Minha experiência também sugere que 8Mé difícil de bater.
Sridhar Sarnobat

Interessante. Você acha que isso está relacionado ao tamanho do cache L3 ou não? Gostaria de saber se tamanhos de bloco maiores que o cache L3 ficariam mais lentos.
SurpriseDog

3

Isso depende totalmente do sistema. Você deve tentar encontrar a solução ideal. Tente começar com bs=8388608. (Como os HDDs da Hitachi parecem ter 8 MB de cache).


5
um monte de versões dd aceitar atalhos: ou seja, bs=8Mno GNU / Linux ou bs=8mno BSD
pascal

4
lol, pensei que você ia dizer "Tente a partir de bs=8388608e decréscimo uma vez a cada passo"
Lindhe

1
  • para obter melhor desempenho, use o maior tamanho de bloco que a RAM puder acomodar (enviará menos chamadas de E / S para o sistema operacional)
  • para obter melhor precisão e recuperação de dados, defina o tamanho do bloco para o tamanho do setor nativo da entrada

Como o dd copia os dados com a opção conv = noerror, sync, qualquer erro encontrado resulta na substituição do restante do bloco por zero bytes. Tamanhos maiores de blocos serão copiados mais rapidamente, mas sempre que um erro é encontrado, o restante do bloco é ignorado.

fonte


1
Eu acho que se houver algum erro de escrita que você deve substituir o meio, não altere o tamanho do bloco ...
UNFA
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.