SóProvas


ID
895279
Banca
CESPE / CEBRASPE
Órgão
CNJ
Ano
2013
Provas
Disciplina
Redes de Computadores
Assuntos

No que concerne a RAID e deduplicação, julgue os itens que se
seguem.

Considere que, em uma rotina de cópias de segurança com cinco mídias, a primeira mídia contenha todos os dados e as mídias subsequentes usem o recurso de deduplicação. Nessa situação, em caso de problemas na primeira mídia, é possível a recuperação de todos os dados, sem que ocorra nenhuma perda de informação.

Alternativas
Comentários
  • A desduplicação examina a redundancia dos dados que vão para backup. Em muitos casos é possível sair de um backup de 15TB para 1 TB. Veja este exemplo : Digamos que 1000 pessoas recebam um e-mail da empresa com um anexo de 1 megabyte. A desduplicação de dados faz o backup de apenas uma cópia dos dados do anexo e substitui as outras 999 cópias por indicadores que apontam para a única cópia. A tecnologia também funciona em um segundo nível: Se uma alteração for feita no arquivo original, a deduplicação de dados salva apenas o bloco ou os blocos de dados realmente alterados.
  • Prezados,
    A questão trata de backup e deduplicação. A deduplicação é uma técnica que reduz a quantidade de dados armazenados analisando e eliminando a redundância dos dados. Podemos entender que a deduplicação é uma forma mais simples de compressão.
    A título de exemplo, digamos que um e-mail seja enviado para 10 pessoas com um anexo de 1MB , se cada um salvar esse anexo , ele será replicado 10 vezes quando o backup dos computadores for feito, porem , utilizando-se da técnica de deduplicação, apenas uma cópia do anexo seria gravada no backup, as outras copias seriam substituídas por indicadores que apontam para a cópia única, reduzindo assim o espaço armazenado. Se uma alteração for feita no arquivo original, a deduplicação salva apenas as alterações.
    Dessa forma, uma vez que os dados originais estavam gravados apenas na primeira mídia, os dados armazenados nas demais mídias continham apenas as possíveis alterações e os dados deduplicados, não é possível a recuperação de todos os dados sem garantir perda de informação.
    A utilização da deduplicação tem como objetivo a eliminação da redundância dos dados armazenados, e não se confunde com as técnicas de paridade. Apesar de todas as vantagens das soluções baseadas em deduplicação, ela não substitui as técnicas de backup e alta disponibilidade.
     
  • http://blog.tecnologiaqueinteressa.com/2010/11/o-problema-da-deduplicacao.html

  • P/ complementar os estudos...


    Basicamente, temos três tipos de deduplicação: baseada em arquivo, em bloco, ou em byte. Como se pode ver, a granularidade dos dados avaliados em cada modelo aumenta muito da primeira opção para a última.

    No modelo baseado em arquivo, uma "assinatura" (hash) é atribuída ao arquivo inteiro. Quando se está interessado em comparar apenas arquivos inteiros, este é o modelo menos "pesado", pois exige pouco esforço de comparação. Entretanto, quando estamos falando de uma rede, milhares de informações distintas passam pelo link, algumas fazem parte de arquivos, outras fazem parte de conversações de sistemas  by Text-Enhance">online, páginas web, e assim por diante. Logo, existe uma enorme probabilidade de que sequencias de dados estejam repetidas nesse mar de bits passando pelo link, e portanto a granularidade oferecida por este método não é muito eficiente para otimização WAN.

    A opção baseada em blocos (a mais comum), possui um "overhead" maior que a deduplicação de arquivos, porém consegue comparar pedaços menores de dados (blocos), o que é muito útil para dados diversos, como máquinas virtuais ou arquivos de imagens. Em casos de informações bastante repetitivas (mas não iguais) como por exemplo telas de sistemas corporativos, este método oferece uma maior taxa de otimização.

    Sem dúvida, a deduplicação em nível de byte apresenta o maior "overhead" para o acelerador, mas também o maior retorno. Ao analisar sequencias de bytes (não atrelados a blocos predefinidos), ela consegue obter o melhor resultado, substituindo tamanhos diferentes de sequencias de dados repetidos por ponteiros, reduzindo sensivelmente o stress sobre o link. Este é o modo mais eficiente.


  • Complementando os comentários anteriores: o disco 1 da questão teria os arquivos completos e os demais teriam os ponteiros deduplicados e os arquivos únicos. Perdendo a referência, não tem como recuperar todos os dados. Questão errada.

  • Blza, os comentários falam bem o que é a deduplicação... mas com relação a questão, qual é o erro de fato da questão?

    O texto dela ta completamente louco e incompleto.. mas uma forma de interpretar é que: na primeira mídia temos o backup de todos os dados, e nas demais temos uma replicação desse backup, porém deduplicado... se for esse o caso, é perfeitamente possível sim a recuperação, certo?

    Agora se não for esse o caso, qual seria então?

  • O erro da questão está destacado em vermelho:

    Considere que, em uma rotina de cópias de segurança com cinco mídias, a primeira mídia contenha todos os dados e as mídias subsequentes usem o recurso de deduplicação. Nessa situação, em caso de problemas na primeira mídia, é possível a recuperação de todos os dados, sem que ocorra nenhuma perda de informação.

     

    O comentário do Giordanno é o mais conciso e direto.

    Disco 1 → possui os arquivos completos, de forma única, sem replicação

    Demais discos → possuem os ponteiros que referenciam os seus respectivos dados redundantes representados de forma única no Disco 1

     

    Se perder o Disco 1, perderá os arquivos.

    Ficará apenas com discos com ponteiros que possuem a referência para um disco com os dados (Disco 1) que não existe mais.

  • BRILHA, CESPE/UNB!

  • ERRADO.

    Para eliminar dados redundantes do storage, a técnica de deduplicação salva uma única cópia de dados idênticos (isso foi feito na mídia 1) e substitui todas as outras por indicadores que apontam para essa cópia (isso foi feito nas outras 4 mídias).

    Assim, se os dados da mídia 1 forem perdidos, não há como recuperá-los por meio das outras mídias do sistema visto que nelas haverá apenas as referências/indicadores que levam aos dados que se encontravam na mídia 1.

  • onde na questão está falando que os discos que usam deduplicação são dependentes do primeiro?

    eu interpretei como o colega Daniel Dias, um disco completo e outros 4 discos com os mesmos dados do primeiro só que tendo passado pelo processo de deduplicação

    E aí? Onde na questão minha interpretação é impossível?