Vamos quebrar a questão em dois itens:
1. Dados para a formação de data warehouses podem ser provenientes de e-mails, conversas de telefone, documentos, planilhas.
Item CERTO (eu também não sabia disso ).
Vejam [1]:
“A arquitetura do DW 2.0™ propõe, conforme mencionado, a incorporação de dados não-estruturados no processo de Data Warehousing. Esses dados podem ser provenientes de e-mails, conversas de telefone, documentos, planilhas, etc. Devido à natureza destes dados, que têm como essência o texto livre, incorporá-los simplesmente no mundo analítico, segundo Inmon, criaria um universo de análise muito pouco produtivo, sendo necessário que estes textos passem por uma série de tratamentos antes de serem incorporados efetivamente. É preciso separar o conteúdo realmente relevante para a empresa.”
2. A abordagem linguística utiliza a análise de strings de caracteres para classificar o texto em determinadas categorias, que são definidas previamente de acordo com o objetivo da empresa.
Item ERRADO.
O que o item trouxe foi a descrição da abordagem TEMÁTICA [1]:
“A abordagem lingüística trata o texto de acordo com a língua na qual ele está escrito, sendo sua utilização muito complexa e pouco flexível (uma análise deve ser feita para cada língua). A abordagem temática utiliza a análise de strings de caracteres para classificar o texto em determinadas categorias, que são definidas previamente de acordo com o objetivo da empresa.”
Referência:
[1] Uma abordagem multifacetada para exploração integrada de dados estruturados e não-estruturados em ambientes OLAP:http://teses2.ufrj.br/15/teses/735155.pdf