-
Também chamada de pré-processamento, nessa fase ocorre a preparação dos dados para a fase de modelagem
Essa lista não é exaustiva, mas inclui tarefas como seleção de tabelas, integração, transformação, limpeza e organização de dados – além da seleção e engenharia de recursos.
trata-se da fase mais demorada, ocupando mais de 70% do tempo/esforço total gasto em qualquer projeto de ciência de dados.
-
é a fase ETL ( Extração transformação e processamento) . no caso da questão tá falando da transformação ... onde serão excluidas informação duplicadas ou linhas e conlunas desnessárias e não faltantes... como vou excluir info faltantes.... questão pegadinha de interpretação. cara da cespe
-
Seria excluir as informaçōes duplicadas
-
Gabarito: Errado
o erro da questão está em ser restritiva demais, "consistir" equivale a "fundamentar-se, resumir-se em (algo)."
Logo, sabemos que a preparação de dados há 3 principais passos envolvidos neste processo: limpeza de dados, transformação de dados e redução de dados. Cada um deles envolve diversas atividades.
Não se resumindo a apenas a atividade dada pela questão, excluir as informações faltantes dos problemas a serem resolvidos e dos algoritmos utilizados. Sendo que essa atividade também é feita nesse processo na técnica de limpeza de dados.
A) Dados faltantes: Essa situação ocorre quando alguns dados estão ausentes. Existem diversas práticas para resolver problemas dessa natureza, entre elas, as seguintes:
- Remover os registros com atributos nulos;
- Realizar uma média com os valores do mesmo atributo;
- Realizar uma mediana com os valores do mesmo atributo;
- Preencher o atributo faltante com os valores que mais ocorrem no dataset.
É importante ressaltar que cada tipo de dado pode exigir uma estratégia diferente para lidar com dados faltantes. Nenhuma das técnicas é uma panaceia para resolver todos os problemas.
qualquer erro, favor mande msg.
-
Redação tão confusa que da até medo de a CESPE considerar isso ai como correto.
-
ERRADO
O processo de preparação da base de dados consiste em excluir INFORMAÇÕES DUPLICADAS E INCLUIR as informações faltantes dos problemas a serem resolvidos e dos algoritmos utilizados.