Dissertação
Um modelo para resolução de conflitos sobre repositório de dados XML
Autor
Cecchin, Frantchesco
Institución
Resumen
Resumo: Garantir a qualidade dos dados quando se deseja manter informações provenientes de fontes heterogêneas é um desafio. Os dados importados destas fontes podem conter redundâncias, inconsistências ou ainda estar estruturados de formas completamente distintas. Existem diversas formas de melhorar a qualidade dos dados, tais como realizar bons mapeamentos entre fontes e repositório, identificar objetos semelhantes e manter uma única representação do dado. Para este trabalho, considera-se que questões como mapeamentos, integração e detecção de duplicidade já foram resolvidos. Desta forma, o modelo proposto tem seu foco no estágio subsequente, ou seja, a resolução dos conflitos gerados pela integração. A abordagem para resolução de conflitos considerada tem como base a aplicação de uma política de fusão. Esta política é uma composição de regras definidas pelo usuário para solucionar os conflitos em determinado contexto do repositório. Tais regras têm o objetivo de representar as decisões que o usuário toma quando realiza a limpeza manualmente. Desta forma, uma vez que a regra foi definida, os conflitos reincidentes são solucionados automaticamente nas integrações futuras. Além disso, o modelo proposto considera um histórico de resoluções para manter a proveniência dos dados descartados e permitir auditar asdecisões aplicadas. A manutenção da proveniência permite ao modelo reconstruir a fonte de dados original, evitando o armazenamento de uma cópia das mesmas. Para validar o modelo foi desenvolvida uma ferramenta, denominada XFusion, a qual permitiu executar todas as funcionalidades do modelo sobre um repositório integrado de dados. Adicionalmente, testes de desempenho foram executados e os resultados obtidos mostram a viabilidade do modelo.