Desarrollo de un módulo de gestión de datos y procesos para un cluster de Big Data
Fecha
2019-03-05Registro en:
García Lavanderos, Norberto. (2018). Desarrollo de un módulo de gestión de datos y procesos para un cluster de Big Data. (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.
Autor
García Lavanderos, Norberto
Institución
Resumen
RESUMEN:
Una de las características principales de las tecnologías de “Big Data” es la capacidad de comunicar computadoras de bajo costo para procesar datos, ya que al utilizar tecnologías tradicionales de Ciencia de Datos resulta poco práctico por las limitantes de los recursos. Para ello, se crea una interconexión de computadoras que se le conoce como “Clúster de Big Data”, estas computadoras comparten recursos por medio de redes de datos.
Al utilizar computadoras, de bajo costo constantemente se utiliza un “Clúster” de computadoras heterogéneo y esta es una razón, por la que se puede observar un bajo rendimiento al momento de asignar datos o procesos, ya que se generan cuellos de botella en los procesos y esperas innecesarias, al acceder a la información en equipos de bajo costo.
El presente trabajo de investigación tiene como principal objetivo, mejorar los tiempos de procesamiento existentes al usar tecnologías de “Big Data”, particularmente al usar la biblioteca de software libre Apache® Hadoop®, considerada como pionera en el uso de aplicaciones generales o soluciones particulares aplicables en el área de Ciencia de Datos particularmente cuando se requiere trabajar con grandes volúmenes de datos.
Para alcanzar este objetivo se analizó el funcionamiento interno de la biblioteca de software Apache® Hadoop®, encontrando los puntos y/o aspectos que tienen mayor influencia con respecto del tiempo de ejecución de los procesos.
Para lograr el objetivo principal se desarrolló un sistema, al que se le llamó “DDFE” (Distribución de Datos para Rápida Ejecución). Este sistema está formado por dos módulos que se trabajan en conjunto con las herramientas actuales de Apache® Hadoop®, el primer módulo se encarga de la distribución de datos, al utilizar un algoritmo de balanceo con el nombre de “DBH” (Balanceador de Datos para Hadoop) y el segundo, se encarga de la calendarización de procesos al que se le llamo “PPH” (Planificador de Procesos para Hadoop), los dos módulos trabajan de forma serial y en conjunto para ofrecer un menor tiempo de término para tareas distributivas y algebraicas que actualmente se utilizan en Ciencia de Datos.
Para el análisis de los resultados se utilizó la herramienta de software Apache® Ambari® y esta herramienta se encarga de la administración y monitoreo del sistema de Apache® Hadoop®. Se realizaron pruebas del sistema DDFE con diferentes fuentes de datos y diferentes procedimientos utilizando los mismos equipos de cómputo y las mismas configuraciones que conforman el clúster. Al comparar los resultados obtenidos se muestra una mejora del 45 % en los tiempos de procesamiento al usar el sistema DDFE en el clúster, con la misma fuente de información y la misma configuración del clúster con respecto a los algoritmos “Fair Available” y “First In First Out”.
ABSTRACT:
One of the main characteristics of "Big Data" technologies is the ability to communicate low-cost computers to process data, since using traditional Data Science technologies is impractical due to resource limitations. For this, an interconnection of computers is created, which is known as the "Big Data Cluster", these computers share resources through data networks.
When using computers, a heterogeneous "Cluster" of computers is constantly used, and this is one reason why low performance can be observed when assigning data or processes, since process bottlenecks are generated. and you wait unnecessarily, when accessing information in low-cost equipment.
The main objective of this research work is to improve the existing processing times when using "Big Data" technologies, particularly when using the Apache® Hadoop® free software library, considered as a pioneer in the use of general applications or particular solutions. applicable in the area of Data Science particularly when it is required to work with large volumes of data.
To achieve this objective, the internal functioning of the Apache® Hadoop® software library was analyzed, finding the points and / or aspects that have the greatest influence with respect to the execution time of the processes.
To achieve the main objective, a system was developed, which was called "DDFE" (Data Distribution for Rapid Execution). This system consists of two modules that work together with the current tools of Apache® Hadoop®, the first module is responsible for the distribution of data, using a balancing algorithm with the name of "DBH" (Data Balancer for Hadoop) and the second, is responsible for the scheduling of processes that is called "PPH" (Process Planner for Hadoop), the two modules work serially and together to offer a shorter term time for distributive tasks and algebraics that are currently used in Data Science.
For the analysis of the results, the Apache® Ambari® software tool was used and this tool is responsible for the administration and monitoring of the Apache® Hadoop® system. DDFE system tests were performed with different data sources and different procedures using the same computing equipment and the same configurations that make up the cluster. When comparing the results obtained, a 45% improvement in the processing times is shown when using the DDFE system in the cluster, with the same information source and the same configuration of the cluster with respect to the algorithms "Fair Available" and "First In First Out ".