Desduplicação no nível de bloco no Linux

10

A NetApp fornece desduplicação em nível de bloco (ASIS). Você conhece algum sistema de arquivos (mesmo baseado em FUSE) no Linux (ou OpenSolaris, * BSD) que ofereça a mesma funcionalidade?

(Não estou interessado em deduplicação falsa, como links físicos).

linux netapp deduplication

— Benoît
fonte

6

Verifique lessFS, sistema de arquivos com deduplicação de dados, para Linux. Ainda está na versão beta, mas você pode experimentar:

http://www.lessfs.com/

Saudações,

MV

— MV.
fonte

Excelente! Ainda é beta, mas é definitivamente algo para começar.

— Benoît

7

A desduplicação está chegando ao ZFS no OpenSolaris, mas essa funcionalidade não está disponível no momento.

Foi prototipado por Jeff Bonwick e Bill Moore no inverno passado e eles estão trabalhando para integrá-lo neste verão. Portanto, ele deve estar disponível na próxima versão do OpenSolaris ou mais cedo, se você quiser brincar com o ramo de desenvolvimento.

— 3dinfluence
fonte

Veja a resposta de @ jlliagre - já está disponível.

— James Moore

4

Para pessoas que podem não estar familiarizadas com a deduplicação de dados, é uma técnica pela qual os dados são analisados no nível do arquivo (ou bloco, suponho) e onde arquivos / blocos idênticos em todo o sistema de arquivos são substituídos por um token menor. Isso tem o efeito de diminuir bastante o tamanho efetivo do disco. Pode ser considerado uma forma de copiar na gravação . Leia a página wiki nele.

Não existe um sistema de arquivos que eu tenha ouvido falar no Linux para fazer desduplicação, arquivo ou nível de bloco. Uma fera assim seria útil, apesar de bastante intensiva em processadores.

— Matt Simmons
fonte

4

A desduplicação agora está disponível com o ZFS no OpenSolaris (build 128a e mais recentes).

— jlliagre
fonte

2

Um ano depois, mas aqui está uma solução para o OpenBSD chamada Epitome: http://www.peereboom.us/epitome/ . Desde que seja um licenciamento liberal, poderia muito bem entrar no kernel do Linux.

1

Acabei de publicar um projeto em que tenho trabalhado que deduplicação embutida. Você pode dar uma olhada aqui se estiver interessado. É baseado no fusível e roda no linux.

0

Não conheço nenhuma implementação gratuita de desduplicação para Linux. Eu já vi alguns fornecedores de armazenamento recomendando o uso de um sistema HSM (gerenciamento de armazenamento hierárquico) com uma VTL (Virtual storage Library) que deduz.

Você também pode considerar um sistema semelhante ao Occarina que não é transparente, mas pode fornecer melhores resultados do que a desduplicação.

— James
fonte

0

então ... não há notícias sobre desduplicação no Linux? opendedup pode ser uma escolha, mas, dando a plataforma java em que ele roda, eu não quero ter dores de cabeça. Eu tentei sim, mas esta máquina java e o restante não estão melhorando muito com minhas necessidades de tempo de resposta e segurança de armazenamento.

0

A opção Desduplicação está disponível no Linux, nos sistemas de arquivos BTRFS e ZFS. O BTRFS é desenvolvido de forma nativa no Linux e possui uma ferramenta de desduplicação off-line. Eu não estou pensando 'offline', você deve somar fs. Off-line significa que os dados gravados ativamente não são deduplicados. Mais tarde, porém, você executa a ferramenta para deduplicar os pensamentos armazenados agora. Na verdade, provavelmente a ferramenta está na versão beta. Outra maneira é dentro do ZFS. Disponível como FUSE e nativamente: http://zfsonlinux.org/ . Isso faz com a desduplicação online, infelizmente, essa desaceleração é gravada porque tudo deve ser calculado em tempo real. Você pode on-line e sobre esse comportamento. Após a desduplicação, todos os dados desduplicados ainda serão armazenados como desduplicados. Novas gravações serão armazenadas como 'duplicadas'. Se você deseja desduplicar esses dados no futuro, ative a desduplicação e reescreva todos os arquivos 'duplicados'.

Consulte o documento disponível na página. Para acelerar gravações e leituras, você pode adicionar dispositivos mais rápidos ao pool de armazenamento (especialmente unidades SDD ou talvez um flash USB mais rápido, preste atenção na confiabilidade do dispositivo).

— Znik
fonte

-2

O DRBD faz exatamente isso e faz muito bem! Pode fazer Master / Slave ou Master / Master :-)

— Antoine Benkemoun
fonte

Você poderia me indicar o documento de deduplicação? Não consigo encontrá-lo em drbd.org/home/feature-list .

— Benoît

Acho Antoine significava 'duplicação', que não é realmente o que você estava procurando, eu sei

— Matt Simmons

oh meu mal, qual é a diferença entre duplicação e desduplicação?

— Antoine Benkemoun 10/06/09

Eu coloquei uma explicação rápida no meu comentário, mas essencialmente a duplicação envia os dados para outro host, onde, como desduplicação elimina informações idênticas em todo o filesyste, aumentando o espaço livre eficaz

— Matt Simmons