Então, recentemente, eu queria fazer isso tar
. Alguma investigação me indicou que era mais do que um pouco absurdo que eu não podia. Eu inventei essa split --filter="cat >file; tar -r ..."
coisa estranha , mas, bem, era terrivelmente lenta. E quanto mais eu leio, tar
mais absurdo parecia.
Você vê, tar
é apenas uma lista concatenada de registros. Os arquivos constituintes não são alterados de forma alguma - eles estão inteiros no arquivo morto. Mas eles são bloqueados nos limites do bloco de 512 bytes e, precedendo cada arquivo, existe um cabeçalho . É isso aí. O formato do cabeçalho também é muito, muito simples.
Então, eu escrevi o meu tar
. Eu chamo-lhe ... shitar
.
z() (IFS=0; printf '%.s\\0' $(printf "%.$(($1-${#2}))d"))
chk() (IFS=${IFS#??}; set -f; set -- $(
printf "$(fmt)" "$n" "$@" '' "$un" "$gn"
); IFS=; a="$*"; printf %06o "$(($(
while printf %d+ "'${a:?}"; do a=${a#?}; done 2>/dev/null
)0))")
fmt() { printf '%s\\'"${1:-n}" %s "${1:+$(z 99 "$n")}%07d" \
%07o %07o %011o %011o "%-${1:-7}s" ' 0' "${1:+$(z 99)}ustar " %s \
"${1:+$(z 31 "$un")}%s"
}
Essa é a carne e as batatas, na verdade. Ele escreve os cabeçalhos e calcula o chksum - que, relativamente falando, é a única parte difícil. Faz o ustar
formato do cabeçalho ... talvez . Pelo menos, emula o que o GNU tar
parece pensar que é o ustar
formato do cabeçalho, a ponto de não reclamar. E tem mais, é que eu ainda não coagulei ainda. Aqui, eu vou te mostrar:
for f in 1 2; do echo hey > file$f; done
{ tar -cf - file[123]; echo .; } | tr \\0 \\n | grep -b .
0:file1 #filename - first 100 bytes
100:0000644 #octal mode - next 8
108:0001750 #octal uid,
116:0001750 #gid - next 16
124:00000000004 #octal filesize - next 12
136:12401536267 #octal epoch mod time - next 12
148:012235 #chksum - more on this
155: 0 #file type - gnu is weird here - so is shitar
257:ustar #magic string - header type
265:mikeserv #owner
297:mikeserv #group - link name... others shitar doesnt do
512:hey #512-bytes - start of file
1024:file2 #512 more - start of header 2
1124:0000644
1132:0001750
1140:0001750
1148:00000000004
1160:12401536267
1172:012236
1179: 0
1281:ustar
1289:mikeserv
1321:mikeserv
1536:hey
10240:. #default blocking factor 20 * 512
É isso tar
. Tudo está preenchido com \0
valores nulos, então eu apenas me transformo em
em \n
ewlines para facilitar a leitura. E shitar
:
#the rest, kind of, calls z(), fmt(), chk() + gets $mdata and blocks w/ dd
for n in file[123]
do d=$n; un=$USER; gn=$(id --group --name)
set -- $(stat --printf "%a\n%u\n%g\n%s\n%Y" "$n")
printf "$(fmt 0)" "$n" "$@" "$(chk "$@")" "$un" "$gn"
printf "$(z $((512-298)) "$gn")"; cat "$d"
printf "$(x=$(($4%512));z $(($4>512?($x>0?$x:512):512-$4)))"
done |
{ dd iflag=fullblock conv=sync bs=10240 2>/dev/null; echo .; } |
tr \\0 \\n | grep -b .
RESULTADO
0:file1 #it's the same. I shortened it.
100:0000644 #but the whole first file is here
108:0001750
116:0001750
124:00000000004
136:12401536267
148:012235 #including its checksum
155: 0
257:ustar
265:mikeserv
297:mikeserv
512:hey
1024:file2
...
1172:012236 #and file2s checksum
...
1536:hey
10240:.
Eu digo tipo lá em cima porque esse não shitar
é o objetivo - tar
já faz isso lindamente. Eu só queria mostrar como ele funciona - o que significa que eu preciso tocar no chksum
. Se não fosse por isso, eu estaria dd
saindo do cabeçalho de um tar
arquivo e pronto. Às vezes, isso pode até funcionar, mas fica confuso quando há vários membros no arquivo. Ainda assim, o chksum é realmente fácil.
Primeiro, faça 7 espaços - (que é uma coisa estranha de gnu, eu acho, como a especificação diz 8, mas tanto faz - um hack é um hack) . Em seguida, adicione os valores octais de cada byte no cabeçalho. Esse é o seu chksum. Portanto, você precisa dos metadados do arquivo antes de executar o cabeçalho ou não possui um chksum. E isso é um ustar
arquivo, principalmente.
Está bem. Agora, o que se pretende fazer:
cd /tmp; mkdir -p mnt
for d in 1 2 3
do fallocate -l $((1024*1024*500)) disk$d
lp=$(sudo losetup -f --show disk$d)
sync
sudo mkfs.vfat -n disk$d "$lp"
sudo mount "$lp" mnt
echo disk$d file$d | sudo tee mnt/file$d
sudo umount mnt
sudo losetup -d "$lp"
done
Isso cria três imagens de disco de 500M, formata e monta cada uma e grava um arquivo em cada uma.
for n in disk[123]
do d=$(sudo losetup -f --show "$n")
un=$USER; gn=$(id --group --name)
set -- $(stat --printf "%a\n%u\n%g\n$(lsblk -bno SIZE "$d")\n%Y" "$n")
printf "$(fmt 0)" "$n" "$@" "$(chk "$@")" "$un" "$gn"
printf "$(z $((512-298)) "$gn")"
sudo cat "$d"
sudo losetup -d "$d"
done |
dd iflag=fullblock conv=sync bs=10240 2>/dev/null |
xz >disks.tar.xz
Nota - aparentemente os dispositivos de bloqueio sempre bloqueiam corretamente. Muito útil.
Esse tar
é o conteúdo dos arquivos do dispositivo de disco in-stream e canaliza a saída para xz
.
ls -l disk*
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep 3 01:01 disk1
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep 3 01:01 disk2
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep 3 01:01 disk3
-rw-r--r-- 1 mikeserv mikeserv 229796 Sep 3 01:05 disks.tar.xz
Agora, o momento da verdade ...
xz -d <./disks.tar.xz| tar -tvf -
-rw-r--r-- mikeserv/mikeserv 524288000 2014-09-03 01:01 disk1
-rw-r--r-- mikeserv/mikeserv 524288000 2014-09-03 01:01 disk2
-rw-r--r-- mikeserv/mikeserv 524288000 2014-09-03 01:01 disk3
Viva! Extração...
xz -d <./disks.tar.xz| tar -xf - --xform='s/[123]/1&/'
ls -l disk*
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep 3 01:01 disk1
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep 3 01:01 disk11
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep 3 01:01 disk12
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep 3 01:01 disk13
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep 3 01:01 disk2
-rw-r--r-- 1 mikeserv mikeserv 524288000 Sep 3 01:01 disk3
-rw-r--r-- 1 mikeserv mikeserv 229796 Sep 3 01:05 disks.tar.xz
Comparação...
cmp disk1 disk11 && echo yay || echo shite
yay
E o monte ...
sudo mount disk13 mnt
cat mnt/*
disk3 file3
E assim, neste caso, shitar
executa bem, eu acho. Eu prefiro não entrar em todas as coisas que não farão bem. Mas eu direi - não faça novas linhas nos nomes de arquivos pelo menos.
Você também pode fazer - e talvez deva, considerando as alternativas que eu ofereci - com isso squashfs
. Você não apenas constrói o único arquivo morto a partir do fluxo, mas também é mount
capaz e incorporado aos arquivos do kernel vfs
:
No pseudo-arquivo.exemplo :
# Copy 10K from the device /dev/sda1 into the file input. Ordinarily
# Mksquashfs given a device, fifo, or named socket will place that special file
# within the Squashfs filesystem, this allows input from these special
# files to be captured and placed in the Squashfs filesystem.
input f 444 root root dd if=/dev/sda1 bs=1024 count=10
# Creating a block or character device examples
# Create a character device "chr_dev" with major:minor 100:1 and
# a block device "blk_dev" with major:minor 200:200, both with root
# uid/gid and a mode of rw-rw-rw.
chr_dev c 666 root root 100 1
blk_dev b 666 0 0 200 200
Você também pode usar btrfs (send|receive)
para transmitir um subvolume para o stdin
compressor que você gosta. Esse subvolume não precisa existir antes de você decidir usá-lo como contêiner de compactação, é claro.
Ainda assim, sobre squashfs
...
Eu não acredito que estou fazendo isso justiça. Aqui está um exemplo muito simples:
cd /tmp; mkdir ./emptydir
mksquashfs ./emptydir /tmp/tmp.sfs -p \
'file f 644 mikeserv mikeserv echo "this is the contents of file"'
Parallel mksquashfs: Using 6 processors
Creating 4.0 filesystem on /tmp/tmp.sfs, block size 131072.
[==================================================================================|] 1/1 100%
Exportable Squashfs 4.0 filesystem, gzip compressed, data block size 131072
compressed data, compressed metadata, compressed fragments,...
###...
###AND SO ON
###...
echo '/tmp/tmp.sfs /tmp/imgmnt squashfs loop,defaults,user 0 0'|
sudo tee -a /etc/fstab >/dev/null
mount ./tmp.sfs
cd ./imgmnt
ls
total 1
-rw-r--r-- 1 mikeserv mikeserv 29 Aug 20 11:34 file
cat file
this is the contents of file
cd ..
umount ./imgmnt
Esse é apenas o -p
argumento embutido para mksquash
. Você pode criar um arquivo -pf
contendo quantos deles desejar. O formato é simples - você define o nome / caminho de um arquivo de destino no novo sistema de arquivos, fornece um modo e um proprietário e, em seguida, informa sobre qual processo executar e ler o stdout. Você pode criar quantos quiser - e pode usar LZMA, GZIP, LZ4, XZ ... hmm, existem mais ... formatos de compactação que desejar. E o resultado final é um arquivo no qual você cd
.
Mais sobre o formato:
Obviamente, isso não é apenas um arquivo morto - é uma imagem do sistema de arquivos Linux montável e compactada. Seu formato é do kernel do Linux - é um sistema de arquivos suportado pelo kernel vanilla. Dessa maneira, é tão comum quanto o kernel Linux vanilla. Portanto, se você me dissesse que estava executando um sistema vanilla Linux no qual o tar
programa não estava instalado, eu ficaria duvidoso - mas provavelmente acreditaria em você. Mas se você me dissesse que estava executando um sistema Linux baunilha no qual o squashfs
sistema de arquivos não era suportado, eu não acreditaria em você.