SóProvas


ID
3114664
Banca
CESPE / CEBRASPE
Órgão
TJ-AM
Ano
2019
Provas
Disciplina
Banco de Dados
Assuntos

A respeito de bancos de dados relacionais, julgue o item a seguir.


Uma das ferramentas utilizadas para otimizar o desempenho de uma tabela é a clusterização, que deve ser executada periodicamente, não apenas na criação da tabela.

Alternativas
Comentários
  • ASSERTIVA CORRETA

    CLUSTERIZAÇÃO -> PROCESSO QUE BASICAMENTE BUSCA AGRUPAR DADOS QUE POSSUEM ALGUMA SIMILARIDADE. O GRUPO DERIVADO DESTE PROCESSO PODE SER CHAMADO DE CLUSTER. A CLUSTERIZAÇÃO BUSCA PRINCIPALMENTE MELHORAR O ''DESEMPENHO'', SE É QUE PODEMOS CHAMAR ASSIM, DE UM BD.

  • Pra mim pegou essa palavra "deve", indicando a obrigatoriedade da clusterização.

  • Certo.

    Um cenário pode ser encontrado em:

    https://www.dialhost.com.br/blog/cluster-de-banco-de-dados-eficiencia-de-leitura-e-escrita-em-projetos-de-grande-trafego/

  • O que é Clusterização?

    Clusterização é o agrupamento automático de instâncias similares, uma classificação não-supervisionada dos dados. Ou seja, um algoritmo que clusteriza dados classifica eles em conjuntos de dados que ‘se assemelham’ de alguma forma - independentemente de classes predefinidas. Os grupos gerados por essa classificação são chamados clusters.

    Uma forma de clusterização seria, por exemplo, a partir de dados de animais em um zoológico aproximar animais por suas características. Ou seja, a partir dos dados como ‘quantidade de pernas’, ‘quantidade de dentes’, ‘põe ovo’, ‘tem pêlos’ e vários outros, procuramos animais que estão mais próximos. Poderíamos assim clusterizar os dados, separar animais em mamíferos, aves ou répteis mas sem “contar” ao algoritmo sobre estas classificações. Apenas comparando a distância entre dados o algoritmo mostraria que um tigre está “mais próximo” de um leão do que de uma garça.

    Fonte: https://lamfo-unb.github.io/2017/10/05/Introducao_basica_a_clusterizacao/

  • - Agrupamento/Aglomerado (Clusterização) = é uma técnica de aprendizado não-supervisionado, não necessitando que os registros sejam previamente categorizados. Visa fazer agrupamentos automáticos de dados segundo o seu grau de semelhança, devendo ser executada periodicamente, não apenas na criação da tabela. O objetivo é descobrir diferentes agrupamentos de uma massa de dados e agrupá-los de uma forma que ajude com sua análise. Um agrupamento é uma coleção de registros similares entre si, porém diferentes dos outros registros nos demais agrupamentos

    Fonte: Questões cespe

  • • Um cluster é um subconjunto de todos os possíveis subconjuntos distintos da população (DINIZ e LOUZADA NETO, 2000).

    • A clusterização é considerada como um aprendizado não supervisionado (unsupervised learning) pois nenhuma classe (ou grupo) é conhecida previamente -> POR ISSO, ACREDITO QUE "deve ser executada periodicamente"

    (CESPE/SEDF/ANALISTA DE GESTÃO EDUCACIONAL/TECNOLOGIA DA INFORMAÇÃO/2017) Com relação a data mining e data warehouse, julgue o item que se segue. Agrupar registros em grupos, de modo que os registros em um grupo sejam semelhantes entre si e diferentes dos registros em outros grupos é uma maneira de descrever conhecimento descoberto durante processos de mineração de dados. CERTO

  • Clustering: Agrupamento de dados segundo seu grau de semelhança

    Tuning: Aumento da quantidade de dados, da quantidade de usuários do bd e do desempenho desse.

  • Nunca ouvi falar de clusterização feita em tabelas. Essa questão é sobre índices clusterizados?

  • CERTO

    Clusterização é a tarefa de dividir a população ou os pontos de dados em vários grupos, de modo que os pontos de dados nos mesmos grupos sejam mais semelhantes a outros pontos de dados no mesmo grupo do que os de outros grupos.

  • Lembrando também que a clusterização trabalha com dados não estruturados!!!

  • Gabarito: Certo

    Clusterização: Técnica de agrupar elementos a partir de características que possuem em comum.

  • O filtro não deveria ser Banco de Dados Multidimensionais? :S

  • Data do comentário: 01/09/2020

    Gabarito: CORRETA.

     

    Clusterização pode ser definido como um processo que buscas agrupar dados que possuem alguma similaridade. Diante disso, como os dados similares estariam agrupados, o desempenho de uma consulta seria otimizado.

     

    Um exemplo claro disso é a utilização de índices clusterizados. Normalmente já se define um índice clusterizado na criação da tabela, mas é recomendado que se altere periodicamente os índices clusterizados para melhorar o desempenho da consulta, uma vez que mudanças no contexto de consulta em uma tabela podem ocorrer. Uma consulta típica que retornava dados em uma ordem específica, pode não ser mais frequente um mês depois.

     

    Os índices são estruturas usadas para armazenar de forma eficiente dados de uma ou mais colunas de tabelas e/ou views para que possam ser recuperados mais rapidamente quando consultas forem feitas às mesmas. Podemos definir dois tipos de índices: clusterizados e não-clusterizados.

     

     

    Um índice clusterizado determina a ordem em que as linhas de uma tabela são armazenadas no disco. Se uma tabela tem um índice clusterizado, no momento de um INSERT as linhas dessa tabela serão armazenadas em disco na ordem exata do mesmo índice. Por exemplo, suponha que temos uma tabela chamada “Livro” que tem uma coluna de chave primária “livroID” e que criamos um índice clusterizado para essa mesma coluna. Ao fazer isso, todas as linhas dentro da tabela Livro serão fisicamente ordenadas (no disco atual em que estão inseridas) através dos valores que estão na coluna livroID.

     

    Isso implicará em um ganho enorme na performance das pesquisas, pois as colunas da tabela estarão ordenadas na mesma ordem dos índices clusterizados por intermédio do modelo de armazenamento usado por esse tipo de índice.

     

    Já os índices não-clusterizados não fazem esse trabalho de ordenação dos dados tal qual é feito com os índices clusterizados. Em outras palavras, enquanto os índices clusterizados ordenam fisicamente tanto as linhas da tabela quanto os próprios índices e mantêm os mesmos próximos uns aos outros; os não-clusterizados ordenam somente o índice em si, e não as linhas (que são salvas sempre de forma aleatória no disco).

    https://www.tecconcursos.com.br/questoes/1038609