SóProvas


ID
136213
Banca
ESAF
Órgão
MPOG
Ano
2010
Provas
Disciplina
Banco de Dados
Assuntos

Mineração de Dados

Alternativas
Comentários
  •  

    Técnicas de mineração de dados:
    Classificação
        Consiste em construir um modelo de algum tipo que possa ser aplicado a dados não classificados visando categorizá-los em classes. Lida com resultados discretos. Exemplo: identificar a forma de tratamento na qual um paciente está mais propício a responder, baseando-se em classes de pacientes que respondem bem a determinado tipo de tratamento médico.
     
    Estimativa (ou regressão)
        É usada para definir um valor para alguma variável contínua desconhecida como, por exemplo, receita, altura ou saldo de cartão de crédito. Lida com resultados contínuos. 
     
    Associação
        Consiste em identificar e descrever associações entre variáveis no mesmo item ou associações entre itens diferentes que ocorram simultaneamente, de forma freqüente em banco de dados. É também comum a procura de associações entre itens durante um intervalo temporal.
        O exemplo clássico é determinar quais produtos costumam ser colocados juntos em um carrinho de supermercado.
     
    Segmentação (ou Clustering/Clusterização)
        É utilizada para separar os registros de uma base de dados em subconjuntos ou clusters (agrupamentos), de tal forma que os elementos de um cluster compartilhem propriedades comuns, que servem para distinguir os elementos em outros  clusters, tendo como objetivo maximizar similaridade intra-cluster e minimizar similaridade inter-cluster. Exemplo: Clientes por região de um país.
     
    Sumarização
        A sumarização procura identificar e indicar características comuns entre um conjunto de dados. Essa tarefa é aplicada nos agrupamentos obtidos na tarefa de segmentação. Exemplo: Tabular o significado e desvios padrão para todos os itens de dados.
  • TEC:

     

    Segundo Witten et. al. [1], a mineração de dados é definida como o processo de descoberta de padrões em dados. O processo deve ser automático, ou semiautomático, e os padrões descobertos devem possuir um significado, de forma a trazer alguma vantagem. Os dados devem estar presentes em grandes quantidades.

     

    As formas mais comuns de mineração de dados são [2]:

    Associação: Correlacionar a ocorrência de um fato com outro.

    Associação negativa: Correlacionar a ocorrência de um fato à não ocorrência de outro.

    Classificação: Classificar os dados automaticamente, em grupos pré-definidos. Também chamado de aprendizado supervisionado.

    Padrões de sequencia: Encontrar fatos que acontecem frequentemente após outros.

    Padrões temporais: Encontrar padrões de comportamento em determinados períodos de tempo.

    Clusterização: Dividir os dados em grupos de elementos similares. Também chamado de aprendizado não supervisionado.

    Regressão: É um tipo específico de classificação, usado para tentar deduzir o valor de uma variável, baseado nos valores de outras variáveis.

    Agora vejamos as alternativas:

     

    a) é uma forma de busca sequencial de dados em arquivos.

    Errado. Mineração de dados não é um mecanismo de busca.


    b) é o processo de programação de todos os relacionamentos e algoritmos existentes nas bases de dados.

    Errado. Tudo errado.


    c) por ser feita com métodos compiladores, método das redes neurais e método dos algoritmos gerativos.

    Errado. Não existem os conceitos de métodos compiladores, nem de algoritmos gerativos. Já as redes neurais podem ser usadas na mineração de dados.


    d) engloba as tarefas de mapeamento, inicialização e clusterização.

    Errado. Não existem as tarefas de mapeamento e inicialização.


    e) engloba as tarefas de classificação, regressão e clusterização.

    Certo. Como visto acima, estas são formas de mineração de dados.

     

    [1] Data Mining. Witten et. al. Terceira edição. Página 60.

    [2] Fundamentals of Database Systems. Elmasri e Navathe. Sexta edição. Página 1039

  • O data mining é um processo automático de descoberta de padrões, de conhecimento em bases de dados, que utiliza, entre outros, árvores de decisão e métodos bayesianos como técnicas para classificação de dados.