Questão Q560733

Julgue o item subsequente, acerca dos conceitos de data mining, data warehouse e sistemas colaborativos.

Em data mining, a técnica boosting é utilizada para fazer a seleção inicial dos dados a serem analisados durante o estágio de construção do modelo.

Alternativas

Certo

Errado

Comentários

Modelagem e validação. Este estágio envolve a consideração de vários modelos e a escolha do mais adequado baseado na sua performance de previsão de resultados. Esta técnica incluem Bagging, Boosting, Stachking e Meta-learning.
Encontrei esta tese de doutorado que possui explicações detalhadas das técnicas citadas.

https://www.ppgia.pucpr.br/pt/arquivos/doutorado/teses/2012/leila-versaofinal.pdf
Em data mining, a técnica boosting é utilizada para fazer a seleção inicial dos dados a serem analisados durante o estágio de construção do modelo.

não sei sobre o boosting, mas achei que estava errado pelo falo dos dados não serem analisados na etapa de modelagem. Na modelagem, como o nome diz, você modela o processo com os dados já analisados e "limpos", que passaram pelo entendimento de dados e preparação de dados.

@prof.lucasmicas
Definição: O termo "Boosting" refere-se a uma família de algoritmos que converte alunos fracos em alunos fortes.

Vamos entender essa definição em detalhes resolvendo um problema de identificação de email de spam:

Como você classificaria um email como SPAM ou não? Como todo mundo, nossa abordagem inicial seria identificar e-mails "spam" e "não spam" usando os seguintes critérios. E se:

-->E-mail tem apenas um arquivo de imagem (imagem promocional), é um SPAM

-->E-mail tem apenas link (s), é um SPAM

-->O corpo do e-mail consiste em uma frase como "Você ganhou um prêmio em dinheiro de $ xxxxxx", é um SPAM

-->E-mail do nosso domínio oficial " Analyticsvidhya.com ", não é um SPAM

-->E-mail de fonte conhecida, não é um SPAM

Acima, definimos várias regras para classificar um email em "spam" ou "não spam". Mas você acha que essas regras individualmente são fortes o suficiente para classificar com sucesso um email? Não.

Individualmente, essas regras não são poderosas o suficiente para classificar um email em 'spam' ou 'não spam'. Portanto, essas regras são chamadas de aprendizes fracos .

Para converter um aluno fraco em um aluno forte, combinaremos a previsão de cada aluno fraco usando métodos como:
• Usando média / média ponderada
• Considerando que a previsão tem maior votação

Por exemplo: Acima, definimos 5 alunos fracos. Destes 5, 3 são votados como 'SPAM' e 2 são votados como 'Não é um SPAM'. Nesse caso, por padrão, consideraremos um e-mail como SPAM, porque temos mais (3) votos para 'SPAM'.

Fonte: https://www.analyticsvidhya.com/blog/2015/11/quick-introduction-boosting-algorithms-machine-learning/
Acho que o erro está no trecho sobre seleção dos dados. Que ocorre em etapa própria.
Gaba: Errado

Seleção de dados = Fase de PREPARAÇÃO DE DADOS

Construção do Modelo = Fase de MODELAGEM DE DADOS
Em data mining, a técnica boosting é utilizada para fazer a seleção inicial dos dados a serem analisados durante o estágio de construção do modelo.

Ora, se é seleção INICIAL então os dados estão sendo preparados, ou seja, o MODELO NÃO ESTÁ SENDO CONSTRUÍDO..

Seleção de dados --> Fase de preparação dos dados

Construção do modelo --> Fase de modelagem dos dados.
Segundo o CRISP-DM:, a implementação de um sistema de data mining pode ser dividida seis fases interdependentes para que o mesmo atinja seus objetivos finais. São elas:
Entendimento do negócio: A fase inicial do projeto deve ter por objetivo identificar as metas e requerimentos a partir de uma perspectiva de negócio, e então converte-las para uma aplicação de data mining e um plano inicial de ataque ao problema.
Entendimento dos dados: Esta fase tem como atividade principal extrair uma amostra dos dados a serem usados e avaliar o ambiente em que os mesmos se encontram.
Preparação dos dados: Criação de programas de extração, limpeza e transformação dos dados para uso pelos algorítmos de data mining.
Modelagem: Seleção do(s) algorítmo(s) a serem utililizados e efetivo processamento do modelo. Alguns algorítmos necessitam dos dados em formatos específicos, o que acaba causando vários retornos à fase de preparação dos dados.
Avaliação do modelo: Ao final da fase de modelagem, vários modelos devem ter sido avaliados sob a perspectiva do analista responsável. Agora, o objetivo passa a ser avaliar os modelos com a visão do negócio, se certificando que não existem falhas ou contradições com relação às regras do negócio.
Publicação: A criação e validação do modelo permite avançarmos mais um passo, no sentido de tornar a informação gerada acessível. Isto pode ser feito de várias maneiras, desde a criação de um software específico para tal, até a publicação de um relatório para uso interno.
(Fonte: "Introdução à mineração de dados", por Fabio Vessoni)

técnica de Boosting [Schapire, 2002], que consiste em gerar vários classificadores a partir do mesmo conjunto de treino e depois combiná-los num único classificador final no qual cada classificador inicial participa votando com um certo peso. Este peso é ajustado durante o processo de treino [Quinlan, 1996].
Segundo Géron:
Boosting (originalmente chamado de hypothesys boosting) se refere a qualquer método ensemble que combina vários aprendizes fracos em um forte. A ideia geral dos métodos de boosting é treinar sequencialmente os previsores, cada um tentando corrigir seu antecessor.
Tecnica boosting trabalha na modelagem e não na seleção inicial.

O Tecnica boosting é uma técnica de aprendizado de máquina para problemas de regressão e classificação, que produz um modelo de previsão na forma de um ensemble de modelos de previsão fracos, geralmente árvores de decisão . Ela constrói o modelo em etapas, como outros métodos de boosting, e os generaliza, permitindo a otimização de uma arbitrária.

indico o comentário da Priscila Muniz, excelente exemplo para o entendimento da técnica
A mineração de dados tem por principal objetivo analisar conjuntos de dados que são selecionados, para teste e para treinamento do modelo, para fins de encontrar padrões nos dados e assim determinar qual será o modelo a ser adotado para uso em futuras análises.
Nesta trajetória existem técnicas que são aplicadas aos modelos para fins analisar se estão ou não adequados, diante dos algoritmos que estão sendo usados, para isso, existem três técnicas abordadas por alguns autores, são elas:
1. Bagging: combina a classificações de previsão de múltiplos modelos ou da mesma categoria de modelo para dados de aprendizado diferentes. É aplicado em problemas de regressão com dependência de variáveis contínuas, na mineração de dados utilizando previsão e análises preditivas.
2. Boosting: utilizado para previsão e está baseado na geração de múltiplos modelos ou classificadores, derivando em pesos que combinam as previsões destes modelos em uma simples previsão ou classificação. Pesos maiores são estabelecidos para aquelas observações que foram mais difíceis de classificar.
3. Stacking: também é aplicado na combinação das previsões de múltiplos modelos e útil quando os tipos de modelos incluídos no projeto são muito diferenciados. Neste processo, as previsões de diferentes classificadores são utilizadas como entradas para o aprendizado de máquina, tentando combinar as previsões para criar uma melhor classificação de previsão. O foco é alcançar um nível máximo de exatidão na classificação.
O erro da questão está em afirmar que a técnica boosting está sendo utilizada na seleção inicial dos dados no estágio de construção do modelo, pois o uso do boosting se dá na modelagem e validação do modelo e não para fazer seleção inicial de dados.
(prof. luís octavio lima)
Boosting: uma técnica que combina diversos classificadores com o objetivo de melhorar a precisão geral da classificação

SóProvas

Continue usando...

O que está incluso