Respostas:
Verifique lessFS, sistema de arquivos com deduplicação de dados, para Linux. Ainda está na versão beta, mas você pode experimentar:
Saudações,
MV
A desduplicação está chegando ao ZFS no OpenSolaris, mas essa funcionalidade não está disponível no momento.
Foi prototipado por Jeff Bonwick e Bill Moore no inverno passado e eles estão trabalhando para integrá-lo neste verão. Portanto, ele deve estar disponível na próxima versão do OpenSolaris ou mais cedo, se você quiser brincar com o ramo de desenvolvimento.
Para pessoas que podem não estar familiarizadas com a deduplicação de dados, é uma técnica pela qual os dados são analisados no nível do arquivo (ou bloco, suponho) e onde arquivos / blocos idênticos em todo o sistema de arquivos são substituídos por um token menor. Isso tem o efeito de diminuir bastante o tamanho efetivo do disco. Pode ser considerado uma forma de copiar na gravação . Leia a página wiki nele.
Não existe um sistema de arquivos que eu tenha ouvido falar no Linux para fazer desduplicação, arquivo ou nível de bloco. Uma fera assim seria útil, apesar de bastante intensiva em processadores.
Um ano depois, mas aqui está uma solução para o OpenBSD chamada Epitome: http://www.peereboom.us/epitome/ . Desde que seja um licenciamento liberal, poderia muito bem entrar no kernel do Linux.
Acabei de publicar um projeto em que tenho trabalhado que deduplicação embutida. Você pode dar uma olhada aqui se estiver interessado. É baseado no fusível e roda no linux.
Não conheço nenhuma implementação gratuita de desduplicação para Linux. Eu já vi alguns fornecedores de armazenamento recomendando o uso de um sistema HSM (gerenciamento de armazenamento hierárquico) com uma VTL (Virtual storage Library) que deduz.
Você também pode considerar um sistema semelhante ao Occarina que não é transparente, mas pode fornecer melhores resultados do que a desduplicação.
então ... não há notícias sobre desduplicação no Linux? opendedup pode ser uma escolha, mas, dando a plataforma java em que ele roda, eu não quero ter dores de cabeça. Eu tentei sim, mas esta máquina java e o restante não estão melhorando muito com minhas necessidades de tempo de resposta e segurança de armazenamento.
A opção Desduplicação está disponível no Linux, nos sistemas de arquivos BTRFS e ZFS. O BTRFS é desenvolvido de forma nativa no Linux e possui uma ferramenta de desduplicação off-line. Eu não estou pensando 'offline', você deve somar fs. Off-line significa que os dados gravados ativamente não são deduplicados. Mais tarde, porém, você executa a ferramenta para deduplicar os pensamentos armazenados agora. Na verdade, provavelmente a ferramenta está na versão beta. Outra maneira é dentro do ZFS. Disponível como FUSE e nativamente: http://zfsonlinux.org/ . Isso faz com a desduplicação online, infelizmente, essa desaceleração é gravada porque tudo deve ser calculado em tempo real. Você pode on-line e sobre esse comportamento. Após a desduplicação, todos os dados desduplicados ainda serão armazenados como desduplicados. Novas gravações serão armazenadas como 'duplicadas'. Se você deseja desduplicar esses dados no futuro, ative a desduplicação e reescreva todos os arquivos 'duplicados'.
Consulte o documento disponível na página. Para acelerar gravações e leituras, você pode adicionar dispositivos mais rápidos ao pool de armazenamento (especialmente unidades SDD ou talvez um flash USB mais rápido, preste atenção na confiabilidade do dispositivo).
O DRBD faz exatamente isso e faz muito bem! Pode fazer Master / Slave ou Master / Master :-)