Thesis
Estudio de la aplicabilidad de algoritmos y tecnologías para la generación de métricas sobre grandes volúmenes de datos (Big Data) que representen una red
Autor
Bellet Locker, Eric Gabriel
Institución
Resumen
Resumen Las organizaciones comúnmente utilizan herramientas básicas o tradicionales para
el análisis de datos, sin embargo estas no son capaces de almacenar grandes volúmenes,
no permiten representar de diversas maneras la gran variedad de datos y
no los procesan de forma rápida y eficiente, por lo tanto existen muchos datos que
no pueden ser manipulados correctamente o simplemente no son tratados. Gracias a
los avances tecnológicos actualmente existen herramientas que permiten el manejo
de grandes volúmenes de datos (Big Data), por ejemplo Apache Hadoop. Big Data
se aplica para toda aquella información que no puede ser procesada o analizada utilizando
procesos o herramientas tradicionales. Existen muchas formas de modelar
los conjuntos de datos, una de estas es denominada grafo, que permite representar
redes de la vida cotidiana.
En consecuencia, el objetivo de este trabajo especial de grado, consiste en estructurar
una red que represente un problema de grandes volúmenes de datos, como un
grafo de gran escala, para posteriormente mediante múltiples operaciones almacenarlo,
realizar cálculos, implementar algoritmos y técnicas de visualización para obtener
información sobre la red. Las herramientas utilizadas fueron HDFS, Apache Spark,
GraphX, Scala y Gephi. HDFS en un sistema de archivo distribuido, que permite
que los datos no se guarden en una única máquina sino que sea capaz de distribuir
la información en distintos dispositivos. Spark es una plataforma de computación de
código abierto para análisis y procesos avanzados, que tiene muchas ventajas sobre
Hadoop MapReduce. GraphX es un API para grafos que permite el manejo de estos
de forma paralela. Scala es un lenguaje de programación multiparadigma que combina
propiedades de lenguajes funcionales con orientados a objetos. Gephi es una
herramienta para visualizar redes. Los conceptos y aplicaciones desarrollados en en
este trabajo especial de grafos pueden ser utilizados en cualquier tipo de red, sin
embargo debido a que es evidente la gran cantidad de datos que manejan las redes
sociales, se utilizó una red social para las pruebas de las herramientas mencionadas
anteriormente.
Palabras clave: Big Data, Grafo, Apache Spark, GraphX, Scala, Gephi. Tutor: Prof.Jesús Lares ; Prof. José Sosa