-
O primeiro tipo de deduplicação é bem simples, baseado em arquivos repetidos. O sistema de armazenamento procura arquivos duplicados e quando os encontra apaga todos menos um, os arquivos apagados são substituídos por um arquivo-ponteiro, que como o nome indica aponta para o arquivo que sobrou. Por exemplo imaginem que o João cria uma apresentação e envia o arquivo para a Maria, Pedro e Manuel. Todos guardam essa apresentação em diretórios diferentes nos seus computadores. Quando for realizado o backup de todos esses usuários no servidor central, esses arquivos idênticos vão parar no mesmo servidor, que guardaria apenas o primeiro arquivo, para os demais ele armazenaria um arquivo pequeno apontando a localização (diretório) do primeiro arquivo. Dessa forma não existe gasto extra com armazenamento de várias vezes o mesmo arquivo. Quanto mais arquivos duplicados, maior o ganho neste caso.
Esse tipo de deduplicação é bem simples de ser implementado, porém tem uma eficiência pequena: se algum dos usuários mudar o nome do arquivo ou trocar um slide (ou seja, mudar apenas uma parte pequena do arquivo original) esse novo arquivo será considerado com algo totalmente diferente e não irá aproveitar nenhuma economia de espaço.
-
O segundo tipo de deduplicação é mais eficiente, porém um pouco mais trabalhoso de se entender. Ele se baseia em deduplicar blocos de informações e não apenas arquivos. Para entender como isso funciona, vamos relembrar rapidamente como as informações são armazenadas em um disco.
Por algumas razões técnicas (que não dá para explicar neste texto) um disco rígido é dividido em pedaços de tamanhos iguais chamados setores. As informações são armazenadas nesses setores, da mesma forma que guardamos roupas em gavetas. Se meu disco tem setores de 4Kbytes e desejo armazenar o arquivo "teste.txt" de 10 Kbytes, vou gastar 3 setores (repare que do último setor se usa apenas 2Kbytes, porém o resto desse setor não pode ser aproveitado por outro arquivo - por razões técnicas).
Outro detalhe é que os setores de um mesmo arquivo não precisam estar juntos, eles podem estar espalhados pelo disco (que é o que causa o problema da fragmentação), assim existe uma tabela no disco (essa é a tão famosa FAT ou então NTFS, que são exemplos de tipos dessa tabela) que indica quais os setores de cada arquivo. Assim se meu disco tem 500.000 setores (marcados de 0 a 499.999) então essa tabela, por exemplo, indicará que o arquivo teste.txt ocupa os setores 34.543, 10.801 e 567 (repare que os setores nem precisam estar em uma ordem específica).
Aonde entra a deduplicação aqui? Para responder a essa questão precisamos procurar setores iguais. Imagine que o arquivo "texte.txt" (setores 34.543, 10.801 e 567) e o arquivo "apresentacao1.ppt" (setores 113, 300.234, 41.345 e 998) tenham, por coincidência, os setores 567 e 113 idênticos. Então estou com dois setores contendo exatamente a mesma informação, isso eu posso resolver apontando os dois arquivos para o mesmo setor. Vamos supor que eu escolha manter o 567 e liberar o 113, assim o arquivo "texte.txt" continua sendo 34.543, 10.801 e 567 mas o "apresentação1.ppt" passa a ser 567, 300.234, 41.345 e 998.
Assim, essa técnica de deduplicação procura "pedaços" de informações repetidos e elimina as duplicidades através da tabela que monta esses arquivos (apontando as duplicidades para um mesmo bloco único). Repare que essa técnica de deduplicação não é restrita a apenas discos. Qualquer tipo de armazenamento que divida as informações em blocos pode se beneficiar dessa técnica.
-
Fonte dos comentários anteriores:
http://tecnologiaerede.blogspot.com.br/2011/12/qual-diferenca-entre-deduplicacao-e.html
-
Segundo Manoel Veras (2009,p.254),"A deduplicação de dados é uma nova tecnologia para gerenciar o crescimento de dados e fornecer proteção de dados. Para eliminar dados redundantes do storage, essa técnica de backup salva uma única cópia de dados idênticos e substitui todas as outras por indicadores que apontam para essa cópia."
fonte:
DATACENTER-COMPONENTE CENTRAL DA INFRAESTRUTURA DE TI
AUTOR: MANOEL VERAS
-
Questão delicada.
Via de regra, primeiro os dados são deduplicados para um disco e posterioremente podem ser escritos na fita.
9. Can de-duplication technology be used with tape?
No and yes. Data de-duplication needs random access to data blocks for both
writing and reading, so it needs to be implemented in a disk based system. But
tape can easily be written from a de-duplication data store and in fact that is
the norm. Most de-duplication customers plan on keeping a few weeks or months of
backup data on disk, and then use tape for longer term storage. When you create
a tape from de-duplicated data, the data is re-expanded so that it can be read
directly in a tape drive and will not have to be written back to a disk system
first.
http://www.backupworks.com/datade-duplication-top10thingsyoushouldknow.aspx
-
GABARITO: CERTO
Resumindo, o software de deduplicação elimina a redundância de dados em todos os seus sistemas de armazenamento.
Linear Tape-Open (LTO) é uma tecnologia de armazenamento de dados em fita magnética
LTO-5 capacidade 1.5 TB.
Veja mais: http://arcserve.com/br/solucoes-protecao-dados/software-deduplicacao-dados/
.
-
Ano: 2015 Banca: CESPE Órgão: STJ Prova: Analista Judiciário - Suporte em Tecnologia da Informação
Considerando que um computador de um analista de TI do STJ tenha desligado inesperadamente quando ele estava atualizando o arquivo c:\dados\planilha.txt, julgue o item que se segue, acerca dos conceitos de sistemas de arquivos e tecnologias de backup.
Se esse analista utilizar dois discos externos, DE1 e DE2, para realizar backups de seus dados, de forma que DE1 contenha todos os dados e DE2 seja utilizado com o recurso de deduplicação, ele conseguirá recuperar todos os seus dados a partir de DE2 caso os dados em DE1 sejam perdidos.
Comentários: Deduplicação de dados é uma técnica para reduzir o tamanho de armazenamento de backups.
Por exemplo, se formos realizar o backup do email de uma pessoa, utilizando deduplicação, todas as imagens da assinatura do email da pessoa seriam armazenadas apenas uma vez e todos os outros locais onde essa imagem aparece seriam substituídos por índices, reduzindo assim o espaço do backup.
O comando da questão afirma que o DE2 é utilizado para deduplicação, e o DE1 é o disco que contêm todos os dados, então não há garantia de recuperação se os dados de DE1 forem perdidos pois o DE2 estaria armazenando apenas o índice para arquivos apontados em DE1.
Portanto a questão está errada.
Leandro Rangel - Qc