-
DW - Armazém de dados, ou ainda depósito de dados, é utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada.
DM - Data mart é sub-conjunto de dados de um Data warehouse. Geralmente são dados referentes a um assunto em especial ou diferentes níveis de sumarização, que focalizam uma ou mais áreas específicas. Seus dados são obtidos do DW, desnormalizados e indexados para suportar intensa pesquisa.
K-means - Em mineração de dados, agrupamento k-means é um método de segregar em torno de centros diversos dados, criando o que analogamente na química chamamos de clustering que gera o efeito de particionar n observações dentre k grupos onde cada observação pertence ao grupo mais próximo da média.
-
Qual a função de um Data Mining?
Basicamente, a função do Data Mining é utilizar de grandes bases de dados para trazer insights sobre comportamentos que se repetem de maneira consistente. Isso se deve a elaboração de algoritmos que conseguem identificar padrões em meio a esses dados e estabelecer correlações entre eles.
O que é tecnologia Data Mining?
Data mining é um processo em que a tecnologia é utilizada para localizar padrões, conexões, correlações ou anomalias em uma grande quantidade de dados, permitindo encontrar problemas, hipóteses e oportunidades com mais facilidade.
Qual o resultado de um Data Mining?
Data Mining resgata em organizações grandes o papel do dono atendendo no balcão e conhecendo sua clientela. Esses dados agora podem agregar valor às decisões da empresa, sugerir tendências, desvendar particularidades dela e de seu meio ambiente e permitir ações melhor informadas aos seus gestores.
-
Imagine do maior ao menor:
Big Data tem uma grande quantidade de dados ( Depois de coletar os dados o ... )
Data mining faz a mineração/propecção dos dados a procura de identificar padrões dentro do Big Data e...
Data Warehouse armazena os dados " limpos " depois da Extração, Transformação e Carregamento/Load ( ETL ) do Data Mining ( Como acessar? próximo passo )
Usa-se a ferramenta OLAP para explorar os dados ( já limpos ) do Data WareHouse.
Não aprofundei os conceitos, porém dessa forma você entende melhor o processo até chegar no OLAP.
Espero de ajudado.
" Nós vamos conseguir, Valeu ! "
-
Data Mining (Mineração de Dados)
Garimpagem ou mineração. BARBIERI
Busca algo mais que interpretação, inferências, tentando adivinhar possíveis fatos e correlações não explicitadas nas montanhas de dados de um DW/DM.
Permite ao usuário avaliar tendências e padrões não conhecidos entre os dados.
O Data Mining apoia o conhecimento indutivo, que descobre novas regras e padrões nos dados fornecidos. ( ELMASRI, NAVATHE )
Data Mining se refere à mineração ou a descoberta de novas informações em função de padrões ou regras em grandes quantidades de Dados .( ELMASRI, NAVATHE )
Outras qustões sobre o assunto:
(FCC/2015)As ferramentas de Data Mining permitem ao usuário avaliar tendências e padrões não conhecidos entre os dados. Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como redes neurais, algoritmos genéticos e lógica nebulosa, dentre outras.(C)
(Ano: 2011 Órgão: SEDUC-AM) A mineração de dados (data mining) é um método computacional que permite extrair informações a partir de grande quantidade de dados. CERTA
-
Definições importantes:
DATA MINING : O processo que emprega técnicas estatísticas, matemáticas e de inteligência artificial, para extrair e identificar informações úteis, conhecimentos e padrões na forma de regra de negócio, a partir de vastos conjuntos de dados.
ETL ( (Extract, Transform and Load).):Tecnologias que recuperam dados de muitas fontes, limpando-os e carregando-os em data warehouse, e que fazem parte de qualquer projeto centrado em dados
O termo Datamart (literalmente, loja de dados) designa um subconjunto do datawarehouse que contém os dados do datawarehouse para um sector específico da empresa (departamento, direcção, serviço, gama de produto, etc.). Fala-se assim, por exemplo, de DataMart Marketing, DataMart Comercial,
K-means: é um algoritmo de aprendizagem não supervisionada que agrupa dados com base em sua similaridade