-
a) A fase de preparação para implementação de um projeto de data mining consiste, entre outras tarefas, em coletar os dados que serão garimpados, que podem não estar exclusivamente em um data warehouse interno da empresa.
b) As árvores de decisão são um recurso matemático/computacional usado na aplicação de técnicas estatísticas nos processos de data mining e consistem em utilizar uma massa de dados para criar e organizar regras de classificação e decisão em formato de diagrama de árvore, que vão classificar seu comportamento ou estimar resultados futuros.
d) ... devem ser considerados eventuais sazonalidades.
e) essa definição vale somente para data mining.
-
A Sabemos que a mineração de dados pode acontecer sobre qualquer tipo de arquivo de dados. Lembrem-se a possibilidade de textmining que não tem necessidade de dados armazenados em um Dw. Alternativa errada!
B Na alternativa B existe uma avalanche de conceitos misturados: redes neurais, que fazem parte do conjunto de assuntos relacionados a inteligência artificial; técnicas estatística e arvore de decisão. Cada técnica de mineração é usada com um propósito especifico, por exemplo, a classificação vai permitir que você classifique novas entradas de acordo com um conjunto pré-determinado de saídas, que foram construídos em uma etapa anterior do processo. A questão peca por misturar vários conceitos.
C Criar clusters, ou seja, agrupar subconjuntos de dados de acordo com alguma semelhança entre eles. Essa é a nossa resposta.
D Uma serie temporal deve considerar a sazonalidade, pela lei da oferta e demanda, se você percebe que as vendas aumentam no Natal, você pode aumentar o preço ou o estoque. O fato de desconsiderar a sazonalidade torna a questão incorreta.
E Os processos de OLAP e Data mining são diferentes em relação a complexidade e resultados esperados. OLAP é uma ferramenta de consulta em bases de dados analíticas, ele visa extrair informações por meio de queries e utilizando as operações sobre os cubos de dados, mas não aplicam algoritmos específicos neste processo. Data Mining é bem mais complexo que OLAP, ele busca padrões em grandes volumes de dados por meio de técnicas estatísticas e de algoritmos de inteligência artificial, por exemplo. Sendo assim não é possível comparar de forma tão simplista quando a alternativa tentou fazer, por isso, a letra E está incorreta.
-
"...agrupar, em diferentes conjuntos de dados, os elementos identificados como semelhantes entre si..."
Pensei que clusterização seria agrupar elementos semelhantes EM UM MESMO SUBCONJUNTO (não diferentes).
-
estranho esse finalzinho da letra C "com base nas características analisadas.", pois isso da a entender que a analise de clusters realiza um agrupamento com base em um estágio supervisionado e não está certo, tirando isso o restante da alternativa está OK.
-
A letra C é literalmente conceitual, explora muito bem a definição do termo. Boa questão para treino de conceitos de SIG.
Letra: C.
-
CESPE gosta de cobrar sobre CLUSTERIZAÇÃO/AGRUPAMENTO.
Análise de Clusters = Análise de Agrupamemtnos
- Consiste em identificar agrupamentos de objetos, estes que identificam uma classe.
- Trabalha sobre dados onde as etiquetas das classes não estão definidas.
-
Gabarito: Letra C
Aglomeração, Segmentação ou Clustering é uma tarefa de descoberta de conhecimento na qual uma população heterogênea é particionada em grupos (clusters) mais homogêneos, de acordo com "semelhanças" entre os indivíduos. Não há uma prévia definição em classes (como ocorre na Classificação).
-
Acerca de data mining, assinale a opção correta.
a)A fase de preparação para implementação de um projeto de data mining consiste, entre outras tarefas, em coletar os dados que serão garimpados, que devem estar exclusivamente em um data warehouse interno da empresa. (erro) -> PODE TER DM FORA DO DW.
b) As redes neurais (erro) são um recurso matemático/computacional usado na aplicação de técnicas estatísticas nos processos de data mining e consistem em utilizar uma massa de dados para criar e organizar regras de classificação e decisão em formato de diagrama de árvore, que vão classificar seu comportamento ou estimar resultados futuros. -> A QUESTÃO FALA SOBRE AS ÁRVORES DECISÓRIAS
c)As aplicações de data mining utilizam diversas técnicas de natureza estatística, como a análise de conglomerados (cluster analysis), que tem como objetivo agrupar, em diferentes conjuntos de dados, os elementos identificados como semelhantes entre si, com base nas características analisadas. -> GABARITO
d)As séries temporais correspondem a técnicas estatísticas utilizadas no cálculo de previsão de um conjunto de informações, analisando-se seus valores ao longo de determinado período. Nesse caso, para se obter uma previsão mais precisa, devem ser descartadas (erro) eventuais sazonalidades no conjunto de informações. -> NÃO DEVEM SER DESCARTADAS
e)Os processos de data mining e OLAP têm os mesmos objetivos (erro): trabalhar os dados existentes no data warehouse e realizar inferências, buscando reconhecer correlações não explícitas nos dados do data warehouse. -> ELES NAO TEM O MESMO OBJETIVO, O DM BUSCA PADROES, O OLAP FAZ A ANALISE DO NEGÓCIO
-
CLUSTERING (AGRUPAMENTO)
*Agrupam elementos semelhantes
*Aprendizado não supervisionado
*Não necessita que registros sejam categorizados
GAB: C
OBS: quanto à letra E, o OLAP difere do data mining por não realizar inferência indutiva, é uma análise rápida
-
a) O erro da assertiva é dizer que os dados a serem minerados necessariamente devem estar em um DW. Um data warehouse facilita a mineração por ser uma coleção mais "organizada" de dados, propícia à análise e o descobrimento de padrões e tendências, mas sua existência não é pré-requisito para que esse processo ocorra. ERRADA
b) As redes neurais são estruturas que se assemelham aos neurônios no cérebro humano devido às muitas interconexões entre seus nodos. Contudo, o que o examinador descreve na assertiva são árvores de decisão, que podem ser usadas, dentre outras aplicações, para realizar a classificação na mineração de dados. ERRADA
c) Temos uma definição correta da análise de clusters, ou, como o examinador chama, análise de conglomerados. Nessa tarefa, os elementos semelhantes entre si são agrupados em categorias que não haviam sido previamente definidas. CERTA
d) Veja, mesmo que você não tenha muito conhecimento a respeito de estatística e séries temporais, parece lógico concluir que os elementos sazonais devem ser considerados no processo, não descartados, de modo a representar de maneira adequada a evolução dos dados ao longo do tempo. ERRADA
e) Na verdade, OLAP tem um objetivo mais alinhado à agregação de grandes volumes de dados e à fácil navegação e visualização dos dados em hierarquias. O propósito de reconhecer padrões ocultos nos dados está associado a data mining. ERRADA
-
a) O erro da assertiva é dizer que os dados a serem minerados necessariamente devem estar em um DW. Um data warehouse facilita a mineração por ser uma coleção mais "organizada" de dados, propícia à análise e o descobrimento de padrões e tendências, mas sua existência não é pré-requisito para que esse processo ocorra. ERRADA
b) As redes neurais são estruturas que se assemelham aos neurônios no cérebro humano devido às muitas interconexões entre seus nodos. Contudo, o que o examinador descreve na assertiva são árvores de decisão, que podem ser usadas, dentre outras aplicações, para realizar a classificação na mineração de dados. ERRADA
c) Temos uma definição correta da análise de clusters, ou, como o examinador chama, análise de conglomerados. Nessa tarefa, os elementos semelhantes entre si são agrupados em categorias que não haviam sido previamente definidas. CERTA
d) Veja, mesmo que você não tenha muito conhecimento a respeito de estatística e séries temporais, parece lógico concluir que os elementos sazonais devem ser considerados no processo, não descartados, de modo a representar de maneira adequada a evolução dos dados ao longo do tempo. ERRADA
e) Na verdade, OLAP tem um objetivo mais alinhado à agregação de grandes volumes de dados e à fácil navegação e visualização dos dados em hierarquias. O propósito de reconhecer padrões ocultos nos dados está associado a data mining. ERRADA
-
a) O erro da assertiva é dizer que os dados a serem minerados necessariamente devem estar em um DW. Um data warehouse facilita a mineração por ser uma coleção mais "organizada" de dados, propícia à análise e o descobrimento de padrões e tendências, mas sua existência não é pré-requisito para que esse processo ocorra. ERRADA
b) As redes neurais são estruturas que se assemelham aos neurônios no cérebro humano devido às muitas interconexões entre seus nodos. Contudo, o que o examinador descreve na assertiva são árvores de decisão, que podem ser usadas, dentre outras aplicações, para realizar a classificação na mineração de dados. ERRADA
c) Temos uma definição correta da análise de clusters, ou, como o examinador chama, análise de conglomerados. Nessa tarefa, os elementos semelhantes entre si são agrupados em categorias que não haviam sido previamente definidas. CERTA
d) Veja, mesmo que você não tenha muito conhecimento a respeito de estatística e séries temporais, parece lógico concluir que os elementos sazonais devem ser considerados no processo, não descartados, de modo a representar de maneira adequada a evolução dos dados ao longo do tempo. ERRADA
e) Na verdade, OLAP tem um objetivo mais alinhado à agregação de grandes volumes de dados e à fácil navegação e visualização dos dados em hierarquias. O propósito de reconhecer padrões ocultos nos dados está associado a data mining. ERRADA
-
(a) Errado. Não devem estar necessariamente em um Data Warehouse;
(b) Errado. Isso é função das Árvores de Decisão e, não, Redes Neurais;
(c) Correto. As aplicações de data mining utilizam diversas técnicas de natureza estatística, como a análise de conglomerados (cluster analysis), que tem como objetivo agrupar, em diferentes conjuntos de dados, os elementos identificados como semelhantes entre si, com base nas características analisadas;
(d) Errado. Devem ser consideradas eventuais sazonalidades no conjunto de informações;
(e) Errado. Esses não são objetivos de uma Ferramenta OLAP.
FONTE: PDF DO ESTRATÉGIA
-
Só hoje eu vi DEZ nomes diferentes pra Clustering. !!!