Questão Q992088

Sobre as tarefas e métodos de mineração de dados, identifique como verdadeiras (V) ou falsas (F) as seguintes afirmativas:

( ) Os métodos de agrupamento visam reunir objetos similares e dissimilares a objetos pertencentes a outros grupos.

( ) O método de classificação C4.5 apresenta como saída uma árvore de decisão.

( ) O método de classificação Naïve Bayes utiliza como base dois cálculos: suporte e confiança.

( ) Embora as medidas de similaridade não possam ser aplicadas aos dados ordinais, são utilizadas para dados nominais e binários.

Assinale a alternativa que apresenta a sequência correta, de cima para baixo.

Alternativas

V – V – V – F.

V – V – F – F.

V – V – V – V.

F – F – V – V.

F – F – F – V.

Comentários

Gabarito: B

(V) Os métodos de agrupamento visam reunir objetos similares e dissimilares a objetos pertencentes a outros grupos.

Agrupamento = Clusterização: agrupa elementos semelhantes entre si e distintos dos demais.

(V) O método de classificação C4.5 apresenta como saída uma árvore de decisão.

A publicação do algoritmo C4.5 foi realizada em 1987, tendo como desenvolvedor John Ross Quinlan. O algoritmo tem como objetivo gerar um modelo classificador na forma de uma árvore de decisão, apresentando dois estados durante o processo, os quais são: folha que indica um ponto no final da classificação, sendo atribuída a uma classe e nó de decisão, onde baseando-se no atributo em análise, poderá conter uma ramificação seguida de uma folha ou uma sub-árvore para cada possível valor encontrado na base.

(F) O método de classificação Naïve Bayes utiliza como base dois cálculos: suporte e confiança.

É o algoritmo de Associação é quem faz uso dos parâmetros de Suporte e Confiança (correlação) = Fralda vs Cerveja
"O algoritmo de Bayes classifica as palavras conforme a frequência que elas aparecem no texto", assim é um algoritmo voltado para aprendizagem de máquinas e trabalha com probabilidade estatística.
Bayes ---> Classificação (ex: detecção de fraude bancária e spans)

(F) Embora as medidas de similaridade não possam ser aplicadas aos dados ordinais, são utilizadas para dados nominais e binários.

Primeiro vamos definir alguns conceitos abordados na alternativa.
- Variável ordinal: conjunto finito, assume valores discretos (0, 1, 14...);
- Variável nominal: conjunto finito, sem ordem específica (casado, solteiro, alto, baixo, gordo, magro);
- Variável binária: assume apenas 2 valores, 0 ou 1;
- Similaridade: é o grau de proximidade ou de distanciamento entre duas variáveis.
Um exemplo ajuda a entender. Considere o conjunto {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, já ordenado. A distância entre o elemento 10 e 1 (10-1) é igual a 9, já a medida entre 10 e 8 (10-8) é 2.

O conceito de similaridade é um conceito fundamental para a construção de um cluster, pois, se dois padrões são similares de acordo com algum critério utilizado pela técnica de clustering empregada, então serão agrupados em um mesmo cluster, caso contrário, serão agrupados em clusters diferentes.

Por fim, conclui-se que similaridade é empregada em variáveis ordinais, mas também é possível empregar em variáveis nominais, com certo grau de subjetividade. Por exemplo: satisfação com um curso em pdf (muito insatisfeito = 0, ... , muito satisfeito = 10).

SóProvas

Continue usando...

O que está incluso