SóProvas


ID
5474695
Banca
CESGRANRIO
Órgão
Banco do Brasil
Ano
2021
Provas
Disciplina
Banco de Dados
Assuntos

Na etapa de preparação de dados em um ambiente de Big Data, pode ocorrer o aparecimento de dados ruidosos, que são dados fora de sentido no ambiente do Big Data e que não podem ser interpretados pelo sistema. Uma forma de reduzir esse efeito, e até eliminá-lo, é utilizar um método de suavização de dados, que minimiza os efeitos causados pelos dados ruidosos.

Esse método consiste em

Alternativas
Comentários
    • Método de Binning: É um processo de suavização de dados, usado para minimizar os efeitos de pequenos erros de observação. Os valores dos dados originais são divididos em pequenos intervalos conhecidos como compartimentos e, em seguida, são substituídos por um valor geral calculado para esse compartimento. Pode-se substituir todos os dados em um segmento por seus valores médios ou limites.

  • GAB. C

    dividir os valores dos dados originais em pequenos intervalos, denominados compartimentos, e, em seguida, substituí-los por um valor geral, ou genérico, calculado para cada compartimento específico.

  • >>>Introdução<<<

    • Para tratar dados ruidosos, podemos, por assim dizer, flexibilizá-los, ou seja, suavizá-los. Existem técnicas que fazem isso e elas são: Método de Binning (divide os dados, fragmentando-os e substituem esses dados (seja em valores médios, seja por um valor calculado).. Regressão (uma função matemática que retorna valores reais), Agrupamento (junta dados semelhantes em um cluster)

    >>>Vamos à questão<<<

    • a) agrupar dados semelhantes em clusters, verificar os dados que se apresentam como ruidosos e não os inserir no ambiente de Big Data, substituindo cada um desses dados ruidosos pelo valor NULL. Galera, pensem que os dados agrupados e um deles está fora do grupo – quem nunca viu isso na escola, ner ☹ - em bigdata são chamados de outilers (exceção). Esses dados, podem ser tratados ou não. Logo, afirmar que esses dados forem chamados de “NULL” é muito restritivo e por isso incorreto.

    • b) o cubo OLAP não é usado para a limpeza de dados, mas sim para realizar cruzamentos e análises de informações em tempo real sob diversas perspectivas com o intuito de auxiliar na tomada de decisões. INCORRETO.

    • c) nosso gabarito, já comentado na introdução e complementado pelos colegas

    • d) Vamos entender o que é fusão de dados primeiro: no geral, significa obter dados combinados sobre um sobre um único assunto e combiná-los para análise central. Agora, reflita: será que fundir dados ruidosos ajudará ou atrapalhará nos relatórios?????? INCORRETO.

    • e) Para realizar a mineração de dados, é preciso que se passe por etapas. A etapa de mineração é essencial do processo consistindo na aplicação de técnicas inteligentes a fim de se extrair os padrões de interesse (Data Mining, por exemplo). Como diz um pagode: “aí é que mora o perigo”. Por quê? Essa é a última etapa. Lembrando que o comando da questão quer a limpeza (etapa onde são eliminados ruídos e dados inconsistentes).

    >>>Indo mais fundo<<<

    • É sempre importante frisar que para que os dados sejam bem-minerados, é bom que se passe pelos seguintes passos: limpeza, integração (DW), selecionar (usuário define o que é um bom dado ou não), transformar (mudar os dados para um algoritmo, geralmente agregando-os) e por fim minerar (explorar os dados tops).

    >>>Fontes: <<<

    • PDF estratégia concursos do Thiago Cavalcanti
    • https://pt.theastrologypage.com/data-fusion

    Em frente e enfrente