doctoralThesis
Manutenção de clusters semânticos em sistemas de integração de dados em ambientes P2P
Registro en:
SILVA, Edemberg Rocha da. Manutenção de clusters semânticos em sistemas de integração de dados em ambientes P2P. Recife, 2014. 166 f. Tese (doutorado) - UFPE, Centro de Informática, Programa de Pós-graduação em Ciência da Computação, 2014
Autor
Silva, Edemberg Rocha da
Institución
Resumen
O aumento do número de fontes de dados distribuídas, autônomas e heterogêneas (por exemplo, documentos XML, banco de dados relacionais, páginas HTML, entre outros) na Web tem motivado a necessidade de sistemas de integração, que permitam aos usuários consultar essas fontes de forma transparente. Sistemas de integração de dados baseados em arquiteturas P2P (Peer-to-Peer) têm surgido para melhorar o compartilhamento de dados sobre essas fontes de dados. Por convenção, chamamos essas fontes de pontos. Esses sistemas são os Peer-to-PeerData Management Systems (PDMS).
Para reduzir o espaço de busca para consultas, assim como reduzir o tempo de resposta de uma consulta e diminuir o tráfego de mensagens na rede, alguns PDMS agrupam seus pontos em clusters. O agrupamento pode ser realizado considerando a similaridade semântica entre os esquemas dos pontos que compõem o sistema. Para isso, esses PDMS utilizam ontologias para representar os esquemas exportados por cada ponto que deseja compartilhar seus dados.
Os pontos têm comportamento dinâmico, ou seja, a qualquer momento eles podem modificar seus esquemas e entrar ou sair do PDMS. Esse dinamismo pode modificar o esquema que representa o cluster e, consequentemente, causar um problema o qual chamamos de desbalanceamento semântico dos clusters. Além disso, como os agrupamentos são baseados em similaridade semântica, pode ocorrer a formação de um cluster com um grande número de pontos, sobrecarregando o ponto responsável por gerenciar esse cluster. No entanto, as soluções para o balanceamento de carga em ambientes P2P podem provocar desbalanceamento semântico nos clusters.
Em alguns PDMS, os clusters se conectam entre si, se houver similaridade semântica entre eles. Com as modificações dos esquemas dos clusters, novas conexões entre clusters poderão surgir. Neste sentido, faz-se necessário um processo
que permita aos clusters encontrarem essas novas conexões. Chamamos esse processo de religação semântica. Dentro desse escopo, o objetivo deste trabalho é apresentar soluções para uma manutenção automática desses clusters. A manutenção ocorre sem a intervenção humana e realiza o balanceamento de carga, o balanceamento semântico dos clusters e a religação semântica, quando necessário.