Tesis
Detetores de falhas em aglomerados : um estudo comparativo
Cluster failure detectors : a comparative study
Registro en:
Autor
Gumerato, Péricles Pompermayer, 1987-
Institución
Resumen
Orientador: Luiz Eduardo Buzato Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: Armazenamento seguro de conteúdo deve ser implementado via replicação de dados em múltiplos componentes, para que falhas de componentes não comprometam a integridade das informações armazenadas. Uma das formas de se replicar informações é utilizando replicação ativa, método que consiste em replicar os dados em diferentes cópias, aplicando a mesma ordem das operações em cada uma delas. A decisão de qual ordem de operações será aplicada nas réplicas pode ser feita por um algoritmo de consenso distribuído. É conhecido o resultado de Fischer, Lynch e Paterson (FLP), que prova que é impossível resolver consenso distribuído em sistemas assíncronos na ocorrência de falha de um processo. Para contornar essa impossibilidade, Chandra e Toueg propuseram os detetores de falhas, componentes que encapsulam os problemas gerados pela assincronia do sistema, e que podem ser utilizados para resolver o problema do consenso. Esta dissertação apresenta um estudo comparativo da qualidade de serviço de quatro algoritmos detetores de falhas com diferentes mecanismos de deteção. Na teoria, cada detetor de falhas fornece uma qualidade de serviço diferente, sendo que o mecanismo mais elaborado fornece uma visão mais completa do sistema e, consequentemente, um desempenho melhor. Para simular um ambiente real, os testes foram projetados para serem executados em um aglomerado composto por máquinas de prateleira, e os detetores de falhas foram acoplados à um arcabouço de replicação ativa. A análise dos resultados mostrou que não foi observada diferença significativa na qualidade de serviço dos detetores implementados. A conclusão é que o algoritmo mais simples seria o mais indicado para ser utilizado em aglomerados, pois fornece uma qualidade de serviço tão boa quanto à dos demais algoritmos, teoricamente melhores, porém possui um menor custo de implementação Abstract: Safe data storage can only be implemented by replicating the data in multiple resources, in order to prevent data loss in case of component failures. One way of implementing content replication is by using active replication, a method that consists in replicating the data in different components by applying operations to all the replicas in the same order. The decision of what order of operations will be applied to the replicas can be made by a distributed consensus algorithm. It is known the result of Fischer, Lynch and Paterson (FLP) that proves the impossibility of solving distributed consensus in the occurrence of a single process failure in asynchronous systems. To circumvent this impossibility, Chandra and Toueg defined the failure detectors, components that encapsulate the problems generated by the system's asynchrony and that can be used to achieve consensus. This dissertation presents a comparative study of the implementation of four known failure detection algorithms with different detection mechanisms. In theory, each failure detector delivers a different quality of service, with the most elaborated mechanism delivering the best view of the system and, thus, the best failure detection performance. To simulate a real world environment, tests were designed to run in a commodity hardware cluster, where the failure detectors were coupled to an active replication framework. Our results showed no significant difference in the quality of service of the studied algorithms' implementations. The conclusion is that the simplest algorithm would be the most indicated to be implemented in cluster environments, since it delivers a quality of service as good as the others (which should be better according to the theory) but has a lower cost of implementation Mestrado Ciência da Computação Mestre em Ciência da Computação