Questão Q1809896

Maria está preparando um relatório sobre as empresas de serviços de um município, de modo a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas públicas e previsões de arrecadação.

Maria pretende criar nove grupos de empresas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada grupo.

Assinale a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação.

Alternativas

Algoritmos de associação.

Algoritmos de clusterização.

Árvores de decisão.

Modelagem de dados.

Regressão linear.

Comentários

Clausterizar nada mais é do que agrupar.

Portanto, deve ser usado algoritmos de aprendizado não supervisionados para criação de agrupamentos.

GABARITO LETRA “B”.
Você nunca sai perdendo quando ganha CONHECIMENTO!
Gabarito aos não assinantes: Letra B.
O enunciado se refere à técnica de agrupamento (ou clusterização), que, no contexto da mineração de dados, é realizada de maneira não supervisionada (quando não há uma amostra para treinamento).
Um dos aspectos chaves do enunciado é o trecho "criar 9 grupos, de acordo com os valores de faturamento".
Conforme descreve Elmasri e Navathe, o objetivo do agrupamento é colocar registros em grupos, de maneira que os registros de um grupo sejam semelhantes uns aos outros e diferentes dos registros de outros grupos.
Questão semelhantes:
(Q1751742/CEBRASPE/PF/2018) A análise de clustering é uma tarefa que consiste em agrupar um conjunto de objetos de tal forma que estes, juntos no mesmo grupo, sejam mais semelhantes entre si que em outros grupos. (Certo)
(Q1680474/CEBRASPE/TCE/RJ/2021) No método de mineração de dados por agrupamento (clustering), são utilizados algoritmos com heurísticas para fins de descoberta de agregações naturais entre objetos. (Certo)
A clusterização e a categorização são técnicas de mineração de dados semelhantes.
A principal diferença entre elas é que a primeira não exige a informação a respeito da qualidade das categorias, já na categorização as classes são pré-definidas.
Letra B
Questão: "Maria pretende criar nove grupos de empresas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada grupo"

Agrupamento (Clusterização): identifica os elementos similares (homogêneos) e os agrupam.
Talvez a chave para responder essa questão sem confundir com classificação é o fato de que Maria quer agrupar, mas não definiu as faixas de faturamento, deixando para que o algoritmo defina. No máximo disse que quer 9 grupos e o critério desejado para que o algoritmo realize este trabalho.

Ademais...
- Classificação: grupos (classes) são predefinidos pelo usuário. Trata-se de aprendizado supervisionado.
- Agrupamento: algoritmo realiza o trabalho de identificar as similaridades e agrupar. Trata-se de aprendizado não supervisionado.
Recorreu às técnicas usualmente empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada grupo.

O que é clusterização? “Cluster”, em inglês, significa “grupo”. Portanto, clusterizar nada mais é do que agrupar.

Fonte: Pai dos BURROS, google!
Muito obrigada pessoal!!! Os comentários de vocês estão sendo imprescindíveis no meu entendimento!!!
<<Introdução>>
- Primeiro serão abordados seguintes os algoritmos: classificação, clusterização e associação para depois ser comentado as letras C, D e E.
<<Indo à questão>>
- A clusterização eu agrupo os dados e classifico. Qual é a diferença com a classificação? Está em quando eu classifico os dados. Se os grupos forem definidos antes, é chamado de classificação, se forem definidos depois, é chamado de clusterização. Exemplo: dado um grupo de figura geométricas, classifique os círculos e os triângulos. O que aprendemos? Veja que eu já sei em quais grupos eu quero que os dados retornem, por isso estou, por assim dizer, "ensinando o algoritmo", ou seja, o algoritmo de classificação é supervisionado. Já a clusterização os grupos são obtidos após a coleta de dados. Veja que a Maria não sabe classificar os "9 grupos de empresa", mas ela quer que retorne de forma agrupada. Como fazer isso ("e agora, José")? Há uma solução, eu defino as métricas e ele me retorna os grupos e isso é chamado de clusterização. A clusterização é um algoritmo não supervisionado, ou seja, não preciso saber quais classes retornar para ele fazer isso ( B - nosso gabarito).
- Talvez você se pergunte: "Fabiano, a associação também é um algoritmo não supervisionado, por que não pode ser a resposta?" Porque não é o objetivo deste algoritmo. A ideia dele é retornar a coocorrência, ou seja, um padrão de coisas que acontecem ao mesmo tempo (eliminamos a letra A).
- A árvore de decisão é um técnica de classificação. Vamos refrisar: a Maria não sabe quais serão os "9 grupos de empresa" (eliminamos a letra C).
- Modelagem de dados é um técnica do CRISP-DM para a identificação de conhecimento (KDD). Por meio dela é que eu seleciono técnicas (os algoritmos, por exemplo) para realizar a mineração. Por que não é o gabarito, já que clusterização é uma técnica de modelagem? R.: o comando pediu outra coisa, a saber: "opção que apresenta a técnica diretamente aplicável". Como há algoritmos nos enunciados, a melhor resposta não está no processo, mas sim no algoritmo (eliminamos a letra D).
- Regressão é uma técnica de algortimo supervisionado, logo de cara não é o nosso gabarito (eliminamos a letra E) . Mas vamos aprofundar um pouco. Se você conseguiu internalizar o que é a classificação, a regressão é um técnica similar, mas com a diferença de em vez de retornar qualquer grupo, ele retorna valores ( números reais). Mas o que é regressão linear, Fabiano? Isso não sei explicar em minhas palavras, por isso parafrasearei de uma fonte de referência: "Caso o modelo apenas apresente uma variável independente, será uma regressão linear simples, por seu turno, um modelo com duas ou mais variáveis independentes será uma regressão linear múltipla (Armstrong & Brodie, 1999)".
Obs.: As referências estão na resposta deste comentário (acessar este comentário pelo portal, não na mesa de estudos).

SóProvas

Continue usando...

O que está incluso