FONTE:http://www.itnerante.com.br/profiles/blogs/coment-rio-prova-stn-2013-esaf-quest-es-de-bd-bi-infra-estrutura
Essa questão não mede o grau conhecimento do candidato e sim a sua capacidade de decorar uma lista, que cada dia cresce mais, de técnicas de datamining, mas precisamente das técnicas de pré-processamento. A lista foi retirada do livro do TAN. Veja abaixo a lista em inglês, uma tradução ao pé da letra encontra-se na alternativa E,na mesma ordem apresentada.
AggregationSamplingDimensionality ReductionFeature subset selectionFeature creationDiscretization and BinarizationAttribute Transformation
                            
                        
                            
                                Gabarito: E.
 
Técnicas de Pré-Processamento:
 
Agregação: Combina dois ou mais atributos (ou objetos) em um único atributo (ou objeto) com a finalidade de reduzir o número de atributos ou objetos, alterar escalas e tornar os dados mais estáveis.
 
Amostragem: O princípio básico é: usar uma amostra funciona tão bem quanto usar o conjunto completo de dados, se a amostra for representativa. Ela é representativa se tiver aproximadamente as mesmas propriedades de interesse do conjunto inicial.
 
Redução de Dimensionalidade: Essa técnica reduz a quantidade de tempo e memória necessárias pelos algoritmos de mineração de dados, permitindo que os dados sejam mais facilmente visualizados e ajudando a eliminar características irrelevantes.
 
Seleção de Subconjuntos de Recursos: Trata-se de outra forma de reduzir a dimensionalidade dos dados, buscando eliminar características redundantes ou irrelevantes por meio de diversas abordagens diferentes.
 
Criação de Recursos: Essa técnica busca criar novos atributos que podem capturar informação importante em um conjunto de dados muito mais eficientemente que os atributos originais.
 
Binarização e Discretização: Técnica que busca transformar dados para um formato de atributos binários ou discretos.
 
Transformação de Variáveis: Essa técnica busca melhorar a eficiência de algoritmos de classificação envolvendo redes neurais e auxiliar técnicas estatísticas que se baseiam na suposição da normalidade dos dados.
 
Fonte: Minhas anotações.
 
Bons estudos!