A redução de dimensionalidade é uma das mais importantes formas de regressão, pois permite eliminar subconjuntos de atributos – dos processos de análise subsequentes – do conjunto original de atributos, muitas vezes de alta dimensão, que descrevem os objetos do banco de dados [Hair et al., 1995]. O grande número de dimensões dos conjuntos de dados aumenta a complexidade das técnicas de manipulação e degrada o desempenho dos algoritmos de mineração de dados. Para diminuir esses efeitos, as técnicas de redução de dimensionalidade têm por objetivo representar um conjunto de dados de dimensão E em outro espaço de dimensão menor que E, procurando manter as características do conjunto.
Fonte: http://ic.ufabc.edu.br/II_SIC_UFABC/resumos/paper_5_151.pdf
Técnicas de Pré-Processamento
Agregação: Combina dois ou mais atributos (ou objetos) em um único atributo (ou objeto) com a finalidade de reduzir o número de atributos ou objetos, alterar escalas e tornar os dados mais estáveis.
Amostragem: O princípio básico é: usar uma amostra funciona tão bem quanto usar o conjunto completo de dados, se a amostra for representativa. Ela é representativa se tiver aproximadamente as mesmas propriedades de interesse do conjunto inicial.
Redução de Dimensionalidade: Essa técnica reduz a quantidade de tempo e memória necessárias pelos algoritmos de mineração de dados, permitindo que os dados sejam mais facilmente visualizados e ajudando a eliminar características irrelevantes.
Seleção de Subconjuntos de Recursos: Trata-se de outra forma de reduzir a dimensionalidade dos dados, buscando eliminar características redundantes ou irrelevantes por meio de diversas abordagens diferentes.
Criação de Recursos: Essa técnica busca criar novos atributos que podem capturar informação importante em um conjunto de dados muito mais eficientemente que os atributos originais.
Binarização e Discretização: Técnica que busca transformar dados para um formato de atributos binários ou discretos.
Transformação de Variáveis: Essa técnica busca melhorar a eficiência de algoritmos de classificação envolvendo redes neurais e auxiliar técnicas estatísticas que se baseiam na suposição da normalidade dos dados.