SóProvas


ID
5429695
Banca
FGV
Órgão
SEFAZ-ES
Ano
2021
Provas
Disciplina
Banco de Dados
Assuntos

Maria está preparando um relatório sobre as empresas de serviços de um município, de modo a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas públicas e previsões de arrecadação.
Maria pretende criar nove grupos de empresas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada grupo.
Assinale a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação.

Alternativas
Comentários
  • Clausterizar nada mais é do que agrupar.

    Portanto, deve ser usado algoritmos de aprendizado não supervisionados para criação de agrupamentos.

    GABARITO LETRA “B”.

  • Você nunca sai perdendo quando ganha CONHECIMENTO!

  • Gabarito aos não assinantes: Letra B.

    O enunciado se refere à técnica de agrupamento (ou clusterização), que, no contexto da mineração de dados, é realizada de maneira não supervisionada (quando não há uma amostra para treinamento).

    Um dos aspectos chaves do enunciado é o trecho "criar 9 grupos, de acordo com os valores de faturamento".

    Conforme descreve Elmasri e Navathe, o objetivo do agrupamento é colocar registros em grupos, de maneira que os registros de um grupo sejam semelhantes uns aos outros e diferentes dos registros de outros grupos.

    Questão semelhantes:

    (Q1751742/CEBRASPE/PF/2018) A análise de clustering é uma tarefa que consiste em agrupar um conjunto de objetos de tal forma que estes, juntos no mesmo grupo, sejam mais semelhantes entre si que em outros grupos. (Certo)

    (Q1680474/CEBRASPE/TCE/RJ/2021) No método de mineração de dados por agrupamento (clustering), são utilizados algoritmos com heurísticas para fins de descoberta de agregações naturais entre objetos. (Certo)

  • A clusterização e a categorização são técnicas de mineração de dados semelhantes.

    A principal diferença entre elas é que a primeira não exige a informação a respeito da qualidade das categorias, já na categorização as classes são pré-definidas.

  • Letra B

    Questão: "Maria pretende criar nove grupos de empresas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada grupo"

    Agrupamento (Clusterização): identifica os elementos similares (homogêneos) e os agrupam.

  • Talvez a chave para responder essa questão sem confundir com classificação é o fato de que Maria quer agrupar, mas não definiu as faixas de faturamento, deixando para que o algoritmo defina. No máximo disse que quer 9 grupos e o critério desejado para que o algoritmo realize este trabalho.

    Ademais...

    • Classificação: grupos (classes) são predefinidos pelo usuário. Trata-se de aprendizado supervisionado.
    • Agrupamento: algoritmo realiza o trabalho de identificar as similaridades e agrupar. Trata-se de aprendizado não supervisionado.
  • Recorreu às técnicas usualmente empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada grupo.

    O que é clusterização? “Cluster”, em inglês, significa “grupo”. Portanto, clusterizar nada mais é do que agrupar. 

    Fonte: Pai dos BURROS, google!

  • Muito obrigada pessoal!!! Os comentários de vocês estão sendo imprescindíveis no meu entendimento!!!

  • <<Introdução>>

    • Primeiro serão abordados seguintes os algoritmos: classificação, clusterização e associação para depois ser comentado as letras C, D e E.

    <<Indo à questão>>

    • A clusterização eu agrupo os dados e classifico. Qual é a diferença com a classificação? Está em quando eu classifico os dados. Se os grupos forem definidos antes, é chamado de classificação, se forem definidos depois, é chamado de clusterização. Exemplo: dado um grupo de figura geométricas, classifique os círculos e os triângulos. O que aprendemos? Veja que eu já sei em quais grupos eu quero que os dados retornem, por isso estou, por assim dizer, "ensinando o algoritmo", ou seja, o algoritmo de classificação é supervisionado. Já a clusterização os grupos são obtidos após a coleta de dados. Veja que a Maria não sabe classificar os "9 grupos de empresa", mas ela quer que retorne de forma agrupada. Como fazer isso ("e agora, José")? Há uma solução, eu defino as métricas e ele me retorna os grupos e isso é chamado de clusterização. A clusterização é um algoritmo não supervisionado, ou seja, não preciso saber quais classes retornar para ele fazer isso ( B - nosso gabarito).

    • Talvez você se pergunte: "Fabiano, a associação também é um algoritmo não supervisionado, por que não pode ser a resposta?" Porque não é o objetivo deste algoritmo. A ideia dele é retornar a coocorrência, ou seja, um padrão de coisas que acontecem ao mesmo tempo (eliminamos a letra A).

    • A árvore de decisão é um técnica de classificação. Vamos refrisar: a Maria não sabe quais serão os "9 grupos de empresa" (eliminamos a letra C).

    • Modelagem de dados é um técnica do CRISP-DM para a identificação de conhecimento (KDD). Por meio dela é que eu seleciono técnicas (os algoritmos, por exemplo) para realizar a mineração. Por que não é o gabarito, já que clusterização é uma técnica de modelagem? R.: o comando pediu outra coisa, a saber: "opção que apresenta a técnica diretamente aplicável". Como há algoritmos nos enunciados, a melhor resposta não está no processo, mas sim no algoritmo (eliminamos a letra D).

    • Regressão é uma técnica de algortimo supervisionado, logo de cara não é o nosso gabarito (eliminamos a letra E) . Mas vamos aprofundar um pouco. Se você conseguiu internalizar o que é a classificação, a regressão é um técnica similar, mas com a diferença de em vez de retornar qualquer grupo, ele retorna valores ( números reais). Mas o que é regressão linear, Fabiano? Isso não sei explicar em minhas palavras, por isso parafrasearei de uma fonte de referência: "Caso o modelo apenas apresente uma variável independente, será uma regressão linear simples, por seu turno, um modelo com duas ou mais variáveis independentes será uma regressão linear múltipla (Armstrong & Brodie, 1999)". 

    Obs.: As referências estão na resposta deste comentário (acessar este comentário pelo portal, não na mesa de estudos).