Dissertação
Desenvolvimento e avaliação de desempenho de um cluster Raspberry Pi e Apache Hadoop em aplicações big data
Registro en:
ALVES NETO, Antônio José. Desenvolvimento e avaliação de desempenho de um cluster Raspberry Pi e Apache Hadoop em aplicações big data. 2023. 108 f. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Sergipe, São Cristóvão, 2023.
Autor
Alves Neto, Antônio José
Institución
Resumen
Currently, with the exponential advancement of technology, a large amount of data is generated
daily. These data aren’t generated just by people. A range of electronic equipment has also become
great generators. These large volumes of data are known as Big Data and produce valuable and
helpful information for business intelligence, forecasting, and decision support, among other
possibilities. However, processing this large volume of data requires a different computational
approach from the traditional one, called High Performance Computing (HPC). Over the years,
the HPC has been using supercomputers or computing clusters. The first one is no longer an
option due to its high cost and difficulty to maintain, making clustering an ideal alternative.
Clusters are loosely coupled systems, formed by a set of computers that work in collaboration
with each other, using message exchange libraries. In addition, clusters formed by Single Board
Computers (SBC) are a viable alternative for the development of research in this area. Among
the SBCs, the Raspberry Pi stands out, a SBC initially developed to promote the teaching of
computer science. Its variety of models allows it to meet several specific requirements and does
not require large investments. To operate and to process this large volume of data in a cluster,
it is necessary to have a big data platform, the Apache Hadoop being one of the most widely
available today. Thus, a good solution to obtain a low-cost big data cluster is to combine the use
the Raspberry Pi as the hardware structure and Apache Hadoop as Big Data platform. However,
the lack of detailed material explaining all the installation steps, the configuration process, and,
finally, the certification that the Hadoop cluster is working correctly is a problem little explored
by the academic community. In addition, the monitoring of cluster resources is also a problem
that is rarely addressed by the academy. In order to solve this problem, this work aims to develop
and evaluate the performance of a low-cost big data cluster using Raspberry Pi as a low-cost
hardware structure and Apache Hadoop as a Big Data platform. Its evaluation will be done using
benchmarks widespread in the area (Terasort and TestDFSIO), in addition to accompanying and
monitoring the use of its resources using the tools Zabbix and Grafana, providing a complete and
detailed material of this entire process. Atualmente, com o exponencial avanço da tecnologia, uma grande quantidade dados é gerada
diariamente. Dados esses que não são gerados apenas por pessoas. Uma gama de equipamentos
eletrônicos também tornaram-se grandes geradores, dos quais esses grandes volumes de dados são
conhecidos como Big Data e produzem informações valiosas e úteis para business intelligence,
previsão, suporte à decisão, dentre outras possibilidades. Entretanto, o processamento desse
grande volume de dados requer uma abordagem computacional diferente da tradicional, chamada
de Computação de Alta Performance (High Perfomance Computing - HPC). Ao longo dos
anos, a HPC vem sendo obtida graças à utilização de supercomputadores ou através de clusters
computacionais. O primeiro deixou de ser uma opção pelo seu alto custo e difícil de manutenção,
deixando a “clusterização” como a alternativa ideal. Os clusters são sistemas fracamente
acoplados, formados por um conjunto de computadores que trabalham em colaboração uns com
os outros, usando bibliotecas de troca de mensagens. Além disso, os clusters formados por
Computadores de Placa Única (Single Board Computer - SBC) são uma alternativa viável para
o desenvolvimento de pesquisas nessa área. Dentre os computadores de placa única, destaca
se a Raspberry Pi, um SBC desenvolvido inicialmente para promover o ensino da ciência da
computação. Sua variedade de modelos permite atender a diversas necessidades específicas e
não requer grandes investimentos. Para operacionalização e processamento desse grande volume
de dados em um cluster, faz-se necessário a instalação de uma plataforma de big data, sendo o
Apache Hadoop uma das mais difundidas disponíveis atualmente. Desta forma, uma boa solução
para se obter um cluster big data de baixo custo é utilizar a Raspberry Pi como estrutura de
hardware e o Apache Hadoop como plataforma Big Data. No entanto, a falta de um material
detalhado explicando todas as etapas da instalação, o processo de configuração e, por fim, a
certificação de que o cluster Hadoop está funcionando corretamente é um problema pouco
explorado pela comunidade acadêmica. Além disso, o monitoramento de recursos do cluster
também é um problema que é pouco abordado pela academia. Partindo dessa problemática,
este trabalho tem como objetivo, o desenvolvimento e avaliação de desempenho de um cluster
big data de baixo custo utilizando Raspberry Pi, como estrutura de hardware de baixo custo e
o Apache Hadoop como plataforma de Big Data. A avaliação do mesmo será feita utilizando
benchmarks difundidos na área (Terasort e TestDFSIO), além de acompanhar e monitorar o uso
dos seus recursos utilizando as ferramentas Zabbix e Grafana, provendo um material completo e
detalhado de todo esse processo. São Cristóvão