-
Pré-processamento em Data-Mining
A etapa de pré-processamento, no
processo de descoberta de conhecimento – KDD (Knowledge Discovery in
databases), compreende a aplicação de várias técnicas para captação,
organização, tratamento e a preparação dos dados. É uma etapa que possui
fundamental relevância no processo de KDD. Compreende desde a correção
de dados errados até o ajuste da formatação dos dados para os algoritmos
de mineração de dados que serão utilizados.
http://www.din.uem.br/~gpea/linhas-de-pesquisa/mineracao-de-dados/pre-processamento/pre-processamento-em-data-mining/
-
Cuidado. No processo de KDD, pré-processamento e transformação são etapas distintas.
Pré-processamento e Limpeza
O Pré-processamento e limpeza dos dados é uma parte crucial no processo de KDD, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de mineração. Nesta etapa deverão ser realizadas tarefas que eliminem dados redundantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados discrepantes ao conjunto, chamados de outliers.
O auxílio de um especialista do domínio é fundamental, pois na maioria dos casos apenas alguém que realmente entende do assunto é capaz de dizer se um dado é um outlier ou um erro de digitação.
Nesta fase também são utilizados métodos de redução ou transformação para diminuir o número de variáveis envolvidas no processo, visando com isto melhorar o desempenho do algoritmo de análise.
A identificação de dados inapropriados dentro do conjunto selecionado é problemática, e isto dificulta a automatização desta fase. Definir um dado como “ruim” dentro do conjunto depende da estrutura do mesmo e também de que aplicação é dada a ele (leia mais em DUNKEL et al. , 1997).
Transformação dos Dados
A Transformação do Dados é a fase do KDD que antecede a fase de Data Mining. Após serem selecionados, limpos e pré-processados, os dados necessitam ser armazenados e formatados adequadamente para que os algoritmos possam ser aplicados.
Em grandes corporações é comum encontrar computadores rodando diferentes sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados (SGDB). Estes dados que estão dispersos devem ser agrupados em um repositório único.
Além disto, nesta fase, se necessário, é possível obter dados faltantes através da transformação ou combinação de outros, são os chamados “dados derivados”. Um exemplo de um dado que pode ser calculado a partir de outro é a idade de um indivíduo, que pode ser encontrada a partir de sua data de nascimento. Outro exemplo é o valor total de um finaciamento que pode ser calculado a partir da multiplicação do número de parcelas pelo valor da parcela.
http://fp2.com.br/blog/index.php/2012/um-visao-geral-sobre-fases-kdd/
-
Para quem não entende os comentários sem o gabarito e não tem acesso a resposta.
Gaba: CERTO
-
A questão remete ao pré-processamento dos dados. Uma das tarefas dessa etapa envolve a integração de diferentes bases de dados. Dessa forma, a mineração poderá ocorrer em cima de um conjunto de dados que está fisicamente armazenado em BDs operacionais distintos, mas que foram posteriormente integrados em um DW ou em alguma estrutura do tipo.
-
Certo
O sistema Extract-Transform-Load (ETL) é a base para construção de um data warehouse. Quando projetado adequadamente um sistema ETL extrai dados dos sistemas de origem, reforça a qualidade dos dados e padrões de consistência, ajusta dados para que dados advindos de fontes distintas possam ser usados juntos e finalmente entrega dados em um formato pronto para apresentação.
A principal função da integração de dados ou ETL é obter dados de onde eles residem atualmente, alterando-os para que sejam compatíveis com o formato desejado e colocando-os no sistema de destino. Essas três etapas são chamadas de extrair, transformar e carregar (ETL). Toda a integração de dados, independentemente de ser executada em lote (batch) ou em tempo real, de forma síncrona ou assíncrona, física ou virtualmente, gira em torno dessas ações básicas.
O ETL é responsável pela extração, transformação e carga dos dados das bases operacionais para a base de dados analítico.
O processo de ETL é composto por algumas fases, extrair, limpar, preparar e entregar.
No processo de ETL mostrado na figura, I e II correspondem, respectivamente, a: Staging Area e Data Warehouse.
-
integração de dados
ANP.
-
Por que um Analista Judiciário precisa saber isso????????
-
Transformação de dados: Para realizar a mineração de dados, além da limpeza pode ser necessário também realizar algumas transformações sobre o conjunto de dados. Usa-se técnicas como normalização, suavização, agregação, generalização;
Normalização: Essa normalização é diferente do processo de normalização que é aplicado nos bancos de dados relacionais. Aqui estamos falando de uma normalização matemática, uma operação em que os dados são distribuídos proporcionalmente para ficarem todos em um determinado intervalo.
Suavização: Consiste na remoção de ruídos dos dados, aqueles valores ocasionais que saem de um padrão desejado.
Agregação: diminui o nível de detalhe dos dados. Dependendo da situação, pode não ser necessário armazenar os dados no seu formato mais detalhado, então realizamos a agregação para reduzir a quantidade de registros no nosso conjunto de dados.
Generalização ou Discretização: A generalização também reduz a quantidade de registros como a agregação, mas a diferença é que esse processo permite transformar conjuntos de valores em categorias hierárquicas. Por exemplo, podemos juntar várias idades em uma divisão como “jovem”, “adulto” e “idoso”.