masterThesis
Materialização seletiva de dados baseada em critérios de qualidade
Registro en:
José Costa do Amaral, Haroldo; Carolina Brandão Salgado, Ana. Materialização seletiva de dados baseada em critérios de qualidade. 2007. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2007.
Autor
AMARAL, Haroldo José Costa do
Institución
Resumen
Sistemas de integração de dados oferecem acesso uniforme a informações distribuídas em fontes
autônomas e heterogêneas, através de um esquema integrado que compõe uma visão integrada das
fontes. Normalmente, duas abordagens podem ser usadas na construção de sistemas de integração de
dados, onde cada uma segue uma arquitetura de implementação: as abordagens virtual e materializada.
Na abordagem virtual, implementada pela arquitetura de mediadores, as informações são recuperadas
sob demanda diretamente das fontes de dados. Por outro lado, na abordagem materializada
(warehousing), implementada pela arquitetura de data warehouse, as informações relevantes são
recuperadas com antecedência, integradas e armazenadas em um repositório central, comumente
chamado de data warehouse, de forma que uma consulta é avaliada diretamente nesse repositório.
O sistema de integração de dados Integra, em desenvolvimento pelo Centro de Informática da
UFPE, combina recursos de ambas as abordagens, com suporte ao processamento de consultas virtuais
e materializadas. O Integra foi desenvolvido usando a arquitetura de mediadores (abordagem virtual)
com recursos de materialização (abordagem materializada), compondo uma abordagem híbrida de
integração de dados. A abordagem híbrida é proposta como uma forma de otimizar a performance do
sistema de integração, uma vez que a inserção de mecanismos de materialização funciona como um
mecanismo otimizador no processamento de consultas, além de aumentar a disponibilidade do sistema,
principalmente se for feita uma seleção criteriosa dos dados que serão materializados.
O objetivo principal deste trabalho é desenvolver e implementar os processos de materialização de
dados e de manutenção desses dados materializados, no contexto da proposta definida pelo sistema
Integra. A estratégia de materialização é baseada na seleção parcial de dados, mediante análise de
critérios de qualidade e custo, refletindo as características das fontes e das consultas. Para tal, o
processo de materialização ainda conta com o desenvolvimento de métodos para estimar os critérios.
Na arquitetura do sistema Integra, o módulo responsável pela materialização e manutenção dos dados
materializados é o Gerenciador do Data Warehouse. Sendo assim, este trabalho visa, também, o
desenvolvimento (funcionalidades) e implementação desse módulo.