Gabarito C
O que é Data Mining?
É o processo de descobrir informações relevantes, como padrões, associações, mudanças, anomalias e estruturas, em grandes quantidades de dados armazenados em banco de dados, depósitos de dados ou outros repositórios de informação. Devido a disponibilidade de enormes quantias de dados em formas eletrônicas, e à necessidade iminente de extrair delas informações e conhecimentos úteis a diversas aplicações, por exemplo na análise de mercado, administração empresarial, apoio à decisão, etc, data mining foi popularmente tratado como sinônimo de descoberta de conhecimento em bases de dados, apesar de, na visão de alguns pesquisadores, data mining será considerado como um passo essencial da descoberta de conhecimento. Em geral, um processo de descoberta de conhecimento consiste em uma iteração das seguintes etapas:
• Preparação: é o passo onde os dados são preparados para serem apresentados às técnicas de data mining. Os dados são selecionados (quais os dados que são importantes), purificados (retirar inconsistências e incompletude dos dados) e pré-processados (reapresentá-los de uma maneira adequada para o data mining). Este passo é realizado sob a supervisão e conhecimento de um especialista, pois o mesmo é capaz de definir quais dados são importantes, assim como o que fazer com os dados antes de utilizá-los no data mining.
• Data Mining: é onde os dados preparados são processados, ou seja, é onde se faz a mineração dos dados propriamente dita. O principal objetivo desse passo é transformar os dados de uma maneira que permita a identificação mais fácil de informações importantes.
• Análise de Dados: o resultado do data mining é avaliado, visando determinar se algum conhecimento adicional foi descoberto, assim como definir a importância dos fatos gerados. Para esse passo, várias maneiras de análise podem ser utilizadas, por exemplo: o resultado do data mining pode ser expresso em um gráfico, em que análise dos dados passa a ser uma análise do comportamento do gráfico.
Data mining é uma das ferramentas mais utilizadas para extração de conhecimento através de bancos de dados (Knowledge Discovery in Databases - KDD), tanto no meio comercial quanto no meio científico.
Bons estudos